AMAZON でお買物

『難しいことはしません』でAI性能 66.7% 達成! 研究者が発見した『シンプル学習法』の正体とは

AI

「難しいことはわかりません。でも、ChatGPT には賢くなってほしいんです」

私たちが毎日使っている ChatGPT のような大規模言語モデル(LLM)は、どうやってこんなにも人間らしく、賢く、気の利いた返答をくれるようになったのでしょうか?

「強化学習(RL)」という言葉を聞いたことがあるかもしれません。
たしかに、LLM の性能を引き出すには、この強化学習が重要な役割を担ってきました。
でも、実はそれだけではないのです。

ある研究が「強化学習を使わなくても、上手に”学習の工夫”をすることで、LLMをより賢くできる」と私たちに教えてくれました。
そして、その学習方法は、私たちにも親しみやすい「スーパーバイズド・ファインチューニング(SFT)」という手法なのです。

今回は、SFT の意外な力と、その進化形「iw-SFT」について、わかりやすくお話ししていきます。

「SFT って何?」をやさしく解説

SFT とは「人間が選んだ”良いお手本”をもとに、AIにお作法を教える学習方法」です。

たとえば、子どもに「ありがとうは大事だよ」と教えるように、AIにも「この応答は良いね、これを真似してね」と”良い返答”だけを集めて学ばせます。
これが、SFT。
とてもシンプルで、しかも強化学習よりも扱いやすいのです。

でも、ここに疑問がわきます。

「いい例だけ学ばせるだけで、本当に賢くなるの?」

実はSFTも、強化学習だった?

この研究(Qin & Springenberg, 2025)では、SFT を新しい視点でとらえました。

なんと SFT は、強化学習の”ゆるい下限”を最適化しているだけなのだというのです。

つまり、

SFT = 強化学習の「控えめなバージョン」

というわけです。

さらに面白いのは、この「控えめさ」こそが SFT の限界でもある、という指摘です。

SFT の限界を超える「iw-SFT」とは?

では、どうすれば SFT をもっと強くできるのでしょうか?

答えはシンプルな工夫でした。
それが「iw-SFT(インポータンス・ウェイト付き SFT)」です。

これは、良いデータほど重みをつけて学習する手法で、まるで”成績の良い生徒の答案”を重点的に学ぶようなイメージです。

このわずかな改良で、モデルの性能がぐっと上がったのです。
たとえば、難関数学問題のベンチマーク「AIME2024」では、iw-SFT が 66.7% の正答率を出し、従来の SFT よりも約7%向上しました。

たった1つの例が世界を変える?──トイ実験が示した真実

この研究が印象的だったのは、シンプルな「2択の腕試しゲーム」で、SFT と iw-SFT の差を見せつけたところです。

成功した行動だけを学ぶ SFT はそこそこ良い結果を出すものの最適ではなく、一方で重みづけする iw-SFT は完全に最適な行動を学習することができました。

これは「失敗を無視せず、きちんと重みを考えて学ぶこと」が、いかに重要かを物語っています。

実験が語る、SFT の未来

研究チームは、LLM の学習だけでなく、ロボット制御タスクでも iw-SFT を試しました。
その結果、従来の強化学習と競り合うほどの性能を記録。
しかも、強化学習よりもずっと扱いやすく、安定的に学習できたのです。

読み終わったあなたへ:学習は、ちょっとした工夫で変わる

私たちはしばしば「もっと難しい方法を使えば、もっと良くなる」と思いがちです。
でもこの研究は「賢い工夫で、シンプルな方法が限界を超える」ことを示してくれました。

SFT という優しい学習法が、少しの工夫(iw-SFT)で、強化学習にも匹敵する力を持ちうる。
これは、学習の可能性そのものに対する、大きなメッセージではないでしょうか。

最後に:AIがもっと人に寄り添うために

この研究の本質は「人間の意図を、より正確に、よりやさしく学ばせる方法」にあります。

私たちが望む未来のAIとは、きっと単に賢いだけでなく”人の気持ちに寄り添うAI”でしょう。
そのための学び方として、SFT とその進化系 iw-SFT は、これからもっと注目されていくはずです。

参考:Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved)

コメント

タイトルとURLをコピーしました