GPT-5.4 ProがEpoch AIの数学ベンチマーク「FrontierMath」で過去最高スコアを記録し、20年間未解決だった数学問題を初めて解きました。r/singularityでは162アップボートを集め、「AIが数学研究を変える瞬間」として大きな議論を呼んでいます。
Tier 4(研究レベル)のスコアは前モデルGPT-5.2の18.8%から38.0%へとほぼ倍増。さらにFrontierMath Open Problems(未解決問題コレクション)でも初のAI解答が確認され、Epoch AIが検証を進めています。この記事では、具体的に何が起きたのか、どこまでが「本物の進展」なのかを整理します。
この記事でわかること
- GPT-5.4 ProがFrontierMathで叩き出した具体的なスコア
- 20年間未解決だった数学問題をどう解いたのか
- 「2011年のプレプリント発掘」という意外な解法の正体
- Redditコミュニティの反応と専門家の評価
何が起きたのか:FrontierMathの新記録
GPT-5.4 ProはEpoch AIのFrontierMathベンチマーク全カテゴリで過去最高スコアを記録しました。FrontierMathは350問の未公開数学問題で構成され、「AIがどこまで本格的な数学研究に迫れるか」を測る最難関ベンチマークです。
| カテゴリ | GPT-5.2 Pro | GPT-5.4 Pro | 変化 |
|---|---|---|---|
| Tier 1〜3(300問) | 31% | 50% | +19pt |
| Tier 4(50問・研究レベル) | 18.8% | 38.0% | +19.2pt(約2倍) |
| AIME 2025 | — | 100% | 満点 |
FrontierMathが2024年末に登場した時点では、最先端モデルでも正解率はわずか2%でした。それが16か月で50%に到達したことになります。Epoch AIは「GPT-5.4 set a new record on FrontierMath」と公式に発表しています。
20年間未解決だった問題の詳細
GPT-5.4 Proは、ポーランドの数学者バルトシュ・ナスクレンツキ(Bartosz Naskrecki)が20年間研究してきた問題を初めて解きました。ナスクレンツキはアダム・ミツキェヴィチ大学の数学・情報科学部副学部長で、FrontierMathに問題を提供するヨーロッパの5人の数学者のひとりです。
問題の分野はガロア理論、代数幾何学、算術幾何学にまたがる高度な内容です。ナスクレンツキ自身が約8年前に13ページの解答を書き上げていましたが、未発表のまま。さらにAIが解けないよう意図的に難易度を上げ、o4-mini-highでは解けないことを事前に確認したうえでFrontierMathに提出していました。
11回中1回だけ成功:9%の成功率
Epoch AIはGPT-5.4 Proでこの問題を11回独立に実行し、成功したのは11回目の1回だけでした。成功率は約9%です。しかしその1回の解法は、ナスクレンツキ自身が「非常にきれいで、ほとんど人間的(almost human)」と評価するものでした。
GPT-5.4 Proは「算術と幾何学の関係に対する非常にきれいなパターン」を発見し、高度な数学的道具を使わずに「巧みな和の技法(summation trick)」で解いたとされています。ナスクレンツキは「My singularity has just happened(私のシンギュラリティが来た)」とコメントしています。
「2011年のプレプリント」問題の真相
GPT-5.4 Proが解いたもうひとつのTier 4問題には重要な注釈がつきました。別のTier 4問題で「これまでどのモデルも解けなかった問題」をGPT-5.4 Proが解いたように見えたのですが、調査の結果、モデルは2011年に公開された未査読のプレプリント(予稿論文)を発見し、それを使って解法をショートカットしていたことが判明しました。
問題の作成者自身がこのプレプリントの存在を知らなかったため、「AIが独自に解いた」ように見えていました。Computerworld誌はこれについて「GPT-5.4が(そしてすべてのAIモデルが)高度な検索エンジンであり、その有効性は情報へのアクセスと迅速な吸収に依存している」と指摘しています。
注意すべきポイント
AIの数学的「ブレイクスルー」の一部は、膨大な学術文献の中から人間が見落としていた既存の解法を発掘する「文献考古学」であることが判明しています。これは独自の数学的推論とは異なりますが、学術研究における新しい価値を持つ可能性もあります。
AI数学の現在地:IMOからFrontierMathへ
GPT-5.4 Proの成果は、AIの数学能力が急速に向上している流れの最新章です。以下はこの1年半の主要なマイルストーンです。
AIME(アメリカ数学招待試験)では100%を達成しましたが、これは高校数学コンペレベルの話です。FrontierMathのTier 4は大学院〜研究者レベルであり、ここで38%というスコアは「数学者の助手」として実用的なレベルに近づきつつあることを示しています。
ただし、ある研究者は「GPT-5.4 Proは科学全般では5.2より良いが、数学に関しては5.2 Proより劣る面がある」と指摘しています。「正解を出す能力は上がったが、理解や証明の深さは進歩していない」という評価もあり、スコアの向上が必ずしも数学的推論力の向上を意味しない点には注意が必要です。
Redditの反応を翻訳で紹介
r/singularityでは162アップボート・12コメントを集め、「AIの数学能力がどこまで本物か」をめぐって議論が白熱しました。以下、代表的なコメントを紹介します。
楽観派の声
"FrontierMath went from 2% to 50% in sixteen months. The pace is insane."
(訳)FrontierMathは16か月で2%から50%になった。ペースが異常だ。
慎重派の声
"Finding a forgotten preprint isn't the same as solving the problem. It's literature search, not mathematics."
(訳)忘れられたプレプリントを見つけることは問題を解くこととは違う。文献検索であって数学ではない。
数学者視点
"The Naskręcki problem is the real deal. 9% success rate, but the one solution it found was elegant. That's how mathematicians work too — most attempts fail."
(訳)ナスクレンツキの問題は本物だ。成功率9%だが、見つけた解法はエレガントだった。数学者もそうやって働く――大半の試みは失敗する。
実用性への関心
"The 'literature archaeology' angle is underrated. If AI can find relevant forgotten papers faster than any human, that's already transformative for research."
(訳)「文献考古学」の側面は過小評価されている。AIが人間より速く関連する忘れられた論文を見つけられるなら、それだけで研究にとって変革的だ。
Aitly編集部の見解
GPT-5.4 Proの成果は「すごいけど、冷静に見る必要がある」というのが率直な評価です。
ナスクレンツキの問題を解いた件は確かに画期的です。20年間未解決だった問題に対して、人間の数学者が「エレガント」と認める解法を導き出したことは、AIの推論能力が一定の水準に達していることを示しています。
一方で、「2011年のプレプリント発掘」で解いた問題は、AIが数学的推論をしたのではなく情報検索で解いたケースです。FrontierMath Open Problemsの15問はまだ全問未解決のままであり、「AIが未解決問題を次々と解いている」というイメージとは乖離があります。
現実的に見ると、GPT-5.4 Proは「数学研究のパートナー」として有望です。11回中1回でも正解を出せるなら、数学者が自分の解法を検証したり、別のアプローチを探索したりする際の補助ツールとして十分に価値があります。「AIが数学者を置き換える」のではなく、「数学者がAIを道具として使う」時代が現実味を帯びてきたと言えるでしょう。
よくある質問
参考リンク
文:Aitly編集部|2026年3月18日