AMAZON でお買物

ChatGPT が賢くなった本当の理由は『教え方』だった──テストで○×だけ返すのをやめたAIの学習革命

AI

ChatGPT のようなAIが、最近どんどん「賢く」なっているのを感じませんか?

ちょっと前まで曖昧だった数学の解答も、今ではかなりの精度で答えてくれる。
じゃあ、その裏でAIはどうやって勉強しているんでしょう?

実は、AIの「教え方」が大きく進化しているんです。

そして今、その教え方に革命を起こす仕組みとして注目されているのが──PACS(パックス)という新しいフレームワーク。

今回は「数学苦手でもOK!」という方に向けて、専門用語を極力使わずに、PACS がどうすごいのか、なぜ注目されているのかをストーリー仕立てでお届けします。


AIに「教える」ってどういうこと?

AIを育てる方法はいろいろありますが、近年注目されているのが「強化学習(Reinforcement Learning)」という方法です。

ざっくり言うと…

「これ正解! はい、ごほうび!」
「これはダメ! ごほうびなし!」

というやりとりを何度も繰り返して、AIに”何が良いか”を覚えさせていく学習方法。

とくに「正解・不正解」がハッキリしている数学やプログラミングの分野では、これがかなり有効。
でも、問題もあります。


ごほうびが”少なすぎる”問題

強化学習の悩みどころ、それは報酬(ごほうび)が1回きりだということ。

AIが1問の数学問題に対して、途中の考え方も含めて長文で答えを出したとしましょう。
でも評価されるのは「答えが合っていたかどうか」だけ。

たとえるなら…

テストで答案を出しても、点数だけ返されて、どこがどう間違っていたか教えてくれない。

そんな学び方で、本当に上達できるでしょうか?


PACS は「正解/不正解」そのものを学習データにする

そこで登場したのが、今回紹介する PACS というアプローチ。

PACS はこう考えました:

「正解か不正解かって、もうラベル(答え)みたいなものじゃない?」
「だったら、教師あり学習(supervised learning)として教えちゃえばいいよね!」

つまり「これは正解ですよ」「これは不正解です」とAIに教えることで、答えの良し悪しそのものを予測できるようにしていくんです。

これは、AIにとってはすごく親切な教え方。

なぜなら「ただ正解したかどうか」だけじゃなくて「どういう出力が良いのか・悪いのか」を学べるから。


さらにすごい:先生と採点係が一体になった学習

これまでのAIの学習では、

  • Actor(先生):どう行動するかを学ぶ
  • Critic(採点者):その行動がよかったかどうかを評価する

という2つの役割を別々に設定していました。

ところが PACS では、この先生と採点者が同一人物なんです。

つまり、自分で答えを出して、自分でそれを評価する。
これにより、無駄のない効率的な学びが実現します。


結果、PACSは大きな成果を出している

この PACS を使って、難易度の高い数学問題集(AIME や AMC など)で実験した結果は驚きです。

AIME 2024 での結果(Qwen2.5-7B モデル、pass@256):

  • 従来の方法(PPO):正解率 46.46%
  • 従来の方法(GRPO):正解率 45.42%
  • PACS:正解率 59.78%

というように、圧倒的な差を見せつけています。
PPO より 13.32 ポイント、GRPO より 14.36 ポイントも高い正解率を達成しました。

さらに、PACS は出力の多様性や学習の安定性にも優れており「ただ正解する」だけでなく「より賢く、柔軟に学ぶ」力が備わっていることがわかっています。


PACS が教えてくれる、AIの”人間らしい学び方”

PACS の最大の魅力は「もっと人間に近い学び方」をAIに与えていることです。

私たちもそうですよね?

  • いきなり点数だけよりも、どこがよかったか、何が間違っていたかを教えてもらえた方がうれしい。
  • 一度に全部うまくやろうとするより、自分で考えて、自分でチェックする方が身につく

そんな「丁寧で気づきのある学び」を、AIにも与えているのが PACS なのです。


まとめ:これからのAIには「どう教えるか」がますます重要に

AIがどれだけ賢くなるかは、「何を教えるか」ではなく「どう教えるか」がカギになる時代に入りました。

PACS は、その一つの答えを示してくれたアプローチです。

難しい数式や理論ではなく、やさしく、親切に、そして効率よくAIを導く方法。

これからAIがもっと人間のような”思考”を持つ存在になるために、PACS のような発想がどんどん必要とされるでしょう。

参考:Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

コメント

タイトルとURLをコピーしました