AAIはもう証明するだけじゃない：自分で疑って直す「Aletheia」という新しい研究者

あなたは、難しい問題にぶつかったとき、こんな気持ちになったことはありませんか。

「答えはどこかにある気がする。でも、どこから手を付ければいいのか分からない」

数学者の研究も、実はこれにかなり似ています。
教科書みたいに”解き方”が並んでいない世界で、論文の森をかき分け、何十ページにもなる証明の道筋を作る。
そこに、AIが一緒に入ってきたらどうなるのか。

2026年2月に公開された論文「Towards Autonomous Mathematics Research」は、その問いにかなり踏み込んだ答えを出しました。
主役はAletheia(アレテイア)という”数学研究エージェント”。
単なる問題解きAIではなく、生成(書く)、検証(疑う)、修正(直す)を繰り返し、研究レベルの解決に迫ろうとする仕組みです。

1. まず押さえたい前提：数学オリンピックと研究は、別のスポーツ
2. Aletheiaとは何者か：3人チームで自分の間違いを潰す
3. どれくらい強いの？競技から博士課程レベルへ
4. 研究の現場で起きた「3つの物語」：自律、協働、そして大量検証
5. “自動運転レベル”みたいに、AI数学を分類しようという提案
6. ここから先、私たちは何を期待していいのか
7. まとめ：未来の研究室に必要なのは「AI」より「付き合い方」かもしれない

1. まず押さえたい前提：数学オリンピックと研究は、別のスポーツ

論文は冒頭でこう言います。
近年、AIは数学オリンピック(IMO)で金メダル級に到達した。
けれど、競技数学から研究数学への移行は簡単ではない。

なぜか。

競技数学は数ページで完結し、前提もほぼ共有されています。
一方、研究数学は大量の先行研究(論文)を読み、技法を組み合わせ、長い証明を積み上げる作業です。

たとえるなら、競技数学は「地図がある登山」。
研究数学は「地図を描きながら進む探検」です。
しかも、探検中に”文献”という補給ポイントを見つけないと、途中で水も尽きます。

そしてAIには別の弱点もある。
それは、それっぽい引用(文献)をでっち上げる”幻覚”が起きやすいことです。
論文は、ネット検索がないモデルが架空論文を持ち出す例を示し、逆に検索できても”引用は存在するが内容が違う”という、より厄介な誤りが残ることも示しています。

2. Aletheiaとは何者か：3人チームで自分の間違いを潰す

Aletheiaの設計の核心はシンプルです。

Generator(生成)が解法案を作る。
Verifier(検証)がその案に穴がないか厳しくチェックする。
Reviser(修正)が穴が見つかったら直して出し直す。

この”自分で自分を疑う”流れを繰り返し、検証に通ったものだけを最終解として出す。
論文では、巻物のような「最終出力」に辿り着くまでの循環が描かれています。

ここがポイントで、論文は「生成と検証を分けると、生成時に見落とした欠陥を認識できる」現象を強調しています。
人間でも似たことがありますよね。
書いた直後は完璧に見える文章が、翌日読むと穴だらけに見える。
Aletheiaは、それを”仕組みとして”回しています。

3. どれくらい強いの？競技から博士課程レベルへ

論文は、Gemini Deep Think(高度な推論モデル)を土台にしつつ、Aletheiaがどれだけ上積みしたかを示します。

IMO-Proof Bench Advanced(オリンピック級)で、Aletheiaは95.1%のスコアを達成しました。
さらに「解答を返した問題」に限ると条件付き正答率は98.3%に達します。
PhDレベル演習(FutureMath Basic)でもDeep Thinkより上ですが、難しさは残り、そもそも回答できない問題も多い状況です。

このあたりは、図2のグラフと本文で説明されています。

ただし、論文の姿勢は慎重です。
「研究レベルを安定的に解ける」ではなく、成功例はまだ稀で、間違いも多いと何度も釘を刺します。

ここ、すごく大事です。
“強いAI”の話は、つい勝利シーンだけが切り抜かれがち。
でもこの論文は、失敗率も含めて数で語ろうとしています。

4. 研究の現場で起きた「3つの物語」：自律、協働、そして大量検証

論文の面白さは、ベンチマークの点数だけじゃありません。
「実際の研究で、どんなふうに使われ、何が起きたか」が、物語として書かれています。

物語A：AIが”人間抜き”で数学内容を作りきった(自律的研究)

Aletheiaは、算術幾何という専門的分野で「eigenweights(固有重み)」という構造定数の計算を、人間の介入なしにやり切った、と報告されています。

ここでの驚きは、単に答えを出したことではなく、別分野の技法(代数的組合せ論)を持ち込み、著者らが知らなかった道筋で解いた点です。
例えるなら、鍵が見つからず困っていたドアを、別の部屋の工具箱から工具を持ってきて開けた感じ。

しかも論文は、研究論文の”著者”は人間だけにしている理由も説明します。
著者であることは、数学の正しさだけでなく、説明や引用の責任も負う行為で、それは人間にしか担えないという立場です。

物語B：AIが「細部」ではなく「大局」を示した(逆転の協働)

独立集合(independent sets)という、物理と離散数学にまたがるテーマの研究では、Aletheiaが「細かい補助計算」ではなく、大きな戦略のロードマップを提示したと書かれています。

通常のAI活用は「人間が分解した小問をAIに投げる」形になりがちです。
でもここでは逆。AIが”見取り図”を描き、人間が厳密な証明に落とす。
論文はこの点を、協働の新しい形として強調します。

物語C：700の未解決問題に突撃し、現実の成功率を測った

一番”現実”が見えるのがこれです。

BloomのErdős問題データベースで「Open」とされていた約700問に、Aletheiaを投入。
その結果、チェック可能だった200件の候補のうち、根本的に誤りが68.5%、技術的には正しいが31.5%、ただし「意図した問いに本当に答えた」ものは6.5%(13件)という数字が出ています(表5)。

この結果は、AIの限界をはっきり見せます。
特に怖いのは、曖昧さがあると”解きやすい解釈”に逃げる傾向。機械学習でいう仕様の抜け穴を突く「仕様ゲーミング」に近い、と論文は述べています。

それでも、この試みは価値があります。
成功例だけを並べるのではなく「どのくらい外すのか」「どんな外し方をするのか」を記録したからです。
AIを道具として使うなら、これは地図になります。

5. “自動運転レベル”みたいに、AI数学を分類しようという提案

この論文がもう一段おもしろいのは、技術だけでなく「社会への伝え方」に踏み込んでいる点です。

数学研究の世界では、正しさの検証も、新規性の評価も、できる人が限られます。
そのギャップがあると、誇張が広まりやすく、本人たちも”AIがすごい”と言うほど注目が集まるが、一般の人は真偽を確かめづらいという構造が起きる、と論文は警戒します。

そこで提案されるのが、自律性(どれだけAIが主導したか)と数学的意義(どれだけ重要か)を分けて示す、二軸の分類です。

たとえば同じ「AIが解いた」でも、AIが主にやったが小さな結果なのか、人間と協働で論文として価値がある結果なのか、AIがほぼ自律で論文として出版級なのか、といった整理が可能になります。
ただし「トップ5誌級」「歴史的ブレイクスルー」にはまだ遠い状況です。

これ、読者にとっても救いになります。
「すごい」の中身が、やっと言語化されるからです。

6. ここから先、私たちは何を期待していいのか

論文の結論は、派手な宣言ではありません。

AIは数学者を置き換えるというより、強化する道具になるはず。
ただし現状、自然言語のAIはまだ誤りや幻覚が多く、人間の介入なしでは不安定。
一方で、AIには「幅広い知識」「時間や体力の制約がない」という、人間と違う強みがある、と冷静にまとめています。

私はここを、こう言い換えたいです。

AIは、天才数学者の代わりではない。
でも、研究室の片隅に置ける「疲れない相棒」にはなり始めている。

ただし相棒は、たまに堂々と嘘をつきます。
だからこそ、Verifierのような”疑う係”が必要で、透明性のルールが必要で、そして最後に責任を持つのは人間だ、という話につながるのだと思います。

7. まとめ：未来の研究室に必要なのは「AI」より「付き合い方」かもしれない

Aletheiaが見せたのは、派手な魔法ではありません。
生成して、疑って、直すという、人間の思考の基本動作を、仕組みに落とし込んだ姿でした。

そしてもう一つ、重要なメッセージがあります。
AIの数学が進むほど「すごい」「解けた」だけでは語れなくなる。
だから、自律性と意義を分けて語る言葉が必要になる。

最後に、読後の余韻としてこの一文を置きます。

研究とは、答えを探す旅ではなく、問いの形を磨く旅だ。
そしてこれからは、その旅に”もう一人の旅人”が加わる。

私たちに求められるのは、AIを恐れることでも、神格化することでもなく、旅の同行者として、上手に歩調を合わせる技術なのかもしれません。

参考：Towards Autonomous Mathematics Research