AMAZON でお買物

AIが『なぜ?』に答え始めた。Microsoft 発 RPT 技術で 14B モデルが 32B 級の推理力を獲得

AI

「考えてるの?」 AIも人間も、問われる時代に

上司の一言。
「なんでこの提案にしたの?」
部下の返事。
「直感です」

──ちょっと不安になりますよね。

でもこれ、AIの世界ではずっと当たり前でした。
どんなに洗練された言葉を紡いでも、なぜそうしたのかを語れない。
そんな”優等生風”なAIが、私たちのそばにいたのです。

そこに現れたのが、新しい学習法「RPT(Reinforcement Pre-Training)」。
AIが「考える力」を手に入れるための、いわば”脳トレ革命”です。

AIが「推理」する時代へ──RPT とは何か?

従来のAIは、次にくる単語を”なんとなく”で当てていました。
たとえば「電気の力は電荷が増えると……」という文の続きが「強くなる」だと予測できたとしても、なぜそうなるのかを理解しているわけではありませんでした。

RPT は、そんなAIに”考える時間”を与えます。
まるで探偵のように、文脈から手がかりを集め「なぜ次にこの単語が来るのか?」を自分なりに推理するのです。

このプロセスでは、AIは実際に言葉で自分の思考をつぶやきます。

「この文の流れだと”例を出す”場面だろう。となると”たとえば”か”具体的には”が自然かも。いや、学術的な文体なら”すなわち”かもしれない……」

まるで将棋の棋士が「ここで銀か? いや、飛車を引いて……」と考えるように、AIも”読み”を働かせるのです。

なぜ RPT は画期的なのか?

1. ゼロから学べる思考回路
RPT は、ネット上の文章そのものを”教材”として使います。
わざわざ人が正解を用意しなくても、文脈とその続きを見れば、AIが「自分で考えて学ぶ」ことができるのです。

2. ズルできない”報酬ルール”
正しい単語を当てたときだけ”ごほうび”が与えられるシンプルなルール。
これにより、AIは短絡的な”媚び”や”繰り返し”によるごまかしができなくなります。

3. 地頭が良くなる──思考の筋肉を育てる
繰り返し推理させることで、AIは”見たことのない問題”に出会っても応用が利くようになります。
まるで迷路を何度もくぐり抜けるうちに、地図を自分の中に描けるようになる探検家のように。

成果は? RPT を学んだAIの驚くべき成長

Microsoft らの研究によれば、RPT で学習したAI(14B パラメータモデル)は、次の単語を予測する正確さが飛躍的に向上。
なんと、2倍サイズの従来モデル(32B パラメータ)と同じレベルに達したのです。

さらに驚くべきは、数学や一般常識のテスト(MMLU-Pro、SuperGPQA など)でも好成績を出したこと。
「考える力」が、分野を超えて効果を発揮したのです。

そして、何より興味深いのは、その”思考の跡”。
AIは「こうかもしれない」「いや、待てよ」「別の可能性もある」と、自らの迷いや仮説を次々と口にしながら答えにたどり着いていく。
まるで人間のような、いえ、人間以上に粘り強い思考の旅がそこにあります。

重要な注意点

ただし、この初期研究には限界もあります。
実験は主に数学的文書(OmniMATH データセット)で行われており、より幅広い分野での効果については今後の研究が必要とされています。

未来予想図:対話できるAIの時代へ

想像してみてください。

あなたが「この提案の根拠は?」とAIに尋ねると「売上データの傾向から、○○の施策が過去に効果的だったと推測しました。その上で……」と、きちんと”理由”を語るAIが返事をしてくれる。

私たちはついに”話せるAI”ではなく”考えて話すAI”と出会おうとしています。

終わりに:考えること、それが知性の証

これまでのAIは、あたかもレシピを暗記した料理人のように”言葉”を組み立ててきました。

RPT が目指すのは、その先。冷蔵庫の中を見て「この材料なら、今日はシチューがいいかな」と、自分で考えてメニューを作れるシェフのようなAIです。

言葉に理由を添えて話せるAI。
それは、私たちが心から信頼し、共に未来を築ける存在のはじまりかもしれません。

AIが”考えるようになる”ということ──それは、人とAIが初めて”対話できる”ようになる、ということなのです。

参考:Reinforcement Pre-Training

コメント

タイトルとURLをコピーしました