教師データゼロで最先端を超えた──AIが自分で問題を作って解く時代が到来

「先生」がいないと学べない？
そんな常識は、もう古いかもしれません。

私たちは何かを学ぶとき、たいてい「誰かに教えてもらう」ことを前提にします。
先生、参考書、動画チュートリアル。
AIの学習もまた、人が作った膨大なデータセットをもとにしています。
けれど、もしAIが、まるで子どものように「自分で考え、自分で課題を作り、自分で解く」ことができたらどうでしょう？

そんな夢のような話を現実のものにしたのが、今回ご紹介する「Absolute Zero Reasoner（AZR）」という新しいAIモデルです。
これは、ただの技術革新ではありません。
人工知能の学び方そのものを根底から変える可能性を秘めています。

教科書も先生もゼロ。「Absolute Zero」とは？
自分で問題を作って、自分で解く──AZR の仕組み
驚きの成果──「何も教えていない」のに最先端を超えた
推論モードは三種類──人間と同じ「考え方」を使う
誰もが持つ「問いを生み出す力」に着目する時代へ
最後に──AIの学びは、もう私たちの手を離れた？

教科書も先生もゼロ。「Absolute Zero」とは？

AZR が属する「Absolute Zero」というパラダイムは、一言でいえば「ゼロから学ぶAIの仕組み」です。
これまでのAI学習は、必ずといっていいほど人が用意したデータに依存していました。
しかしこのモデルは、人間が用意した質問も答えも使いません。
なんと、自分で「問い」を作り、それを解くことで成長していくのです。

たとえて言えば「教科書を一切使わず、すべて自作の問題集で東大に合格する」ようなもの。
想像するだけでも驚異的ですよね。

自分で問題を作って、自分で解く──AZR の仕組み

AZR の学習は、次のようなサイクルで進みます。

問題を考える（Propose）
自らプログラミングや数学に関する問題を作ります。
例えば「このプログラムの出力は何か？」といった問いです。
その問題に挑戦する（Solve）
作った問題を自分で解きます。
もちろん間違えることもありますが、そこから学びます。
結果を検証する（Verify）
問題と答えの整合性をプログラムでチェックします。
これが「正解のない世界」での「正解」を保証してくれるのです。

このサイクルを何度も繰り返すことで、AZR は誰にも頼らず、どんどん賢くなっていきます。

驚きの成果──「何も教えていない」のに最先端を超えた

AZR は、人間が用意したデータを一切使わずに学習したにもかかわらず、従来の最先端モデルより高い成績を叩き出しました。
特にプログラミングと数学の問題では、人間が作った数万件の問題で訓練されたAIすら上回る精度を記録しています。

さらに注目すべきは、どんなモデル規模でも改善が見られたことです。
3B（小型）モデルでも成果があり、14B（大型）モデルになると一段と高い性能を発揮しました。
つまり、モデルが大きくなるほど「自分で学ぶ力」が強くなるという兆しが見えたのです。

推論モードは三種類──人間と同じ「考え方」を使う

AZR が使うのは、次の三つの「推論の形」です：

Deduction（演繹）：「与えられた情報から論理的に答えを導き出す」
例：プログラムと入力があれば出力を予測する。
Abduction（仮説形成）：「結果から原因を推測する」
例：プログラムと出力が与えられたとき、入力は何だったかを推測する。
Induction（帰納）：「複数の例から一般法則を見つける」
例：いくつかの入力と出力のペアから、その関係式を導く。

これは、まさに人間が使っている思考の型と同じです。
AZR は、論理を一歩ずつ積み上げ、試行錯誤を繰り返し、法則を見つけていきます。

誰もが持つ「問いを生み出す力」に着目する時代へ

AZR のすごさは「答え」ではなく「問い」を自分で考えることにあります。
学校教育では、どうしても「正しい答え」を重視しがちですが、本当に大事なのは「良い問いを立てられるかどうか」かもしれません。

この研究は、そんな新しい視点を私たちに投げかけてくれます。

最後に──AIの学びは、もう私たちの手を離れた？

「Absolute Zero Reasoner」は、まるで「自分自身を先生にして学ぶAI」です。
人間が教えなくても、AIが成長する。そんな世界がすでに始まっています。

もちろん、課題もあります。
ときには不適切な出力をすることもありますし、検証の難しい問題にぶつかることもあります。
しかし、それも含めて「学ぶ」ことができる──それが AZR の真の革新です。

これからのAIは「何を知っているか」ではなく「どのように学ぶか」で進化していくのかもしれません。
そしてその進化の先には、人間とは違う形の知性が誕生するかもしれないのです。

参考：Absolute Zero: Reinforced Self-play Reasoning with Zero Data