「難しいことはわかりません。でも、ChatGPT には賢くなってほしいんです」
私たちが毎日使っている ChatGPT のような大規模言語モデル(LLM)は、どうやってこんなにも人間らしく、賢く、気の利いた返答をくれるようになったのでしょうか?
「強化学習(RL)」という言葉を聞いたことがあるかもしれません。
たしかに、LLM の性能を引き出すには、この強化学習が重要な役割を担ってきました。
でも、実はそれだけではないのです。
ある研究が「強化学習を使わなくても、上手に”学習の工夫”をすることで、LLMをより賢くできる」と私たちに教えてくれました。
そして、その学習方法は、私たちにも親しみやすい「スーパーバイズド・ファインチューニング(SFT)」という手法なのです。
今回は、SFT の意外な力と、その進化形「iw-SFT」について、わかりやすくお話ししていきます。
「SFT って何?」をやさしく解説
SFT とは「人間が選んだ”良いお手本”をもとに、AIにお作法を教える学習方法」です。
たとえば、子どもに「ありがとうは大事だよ」と教えるように、AIにも「この応答は良いね、これを真似してね」と”良い返答”だけを集めて学ばせます。
これが、SFT。
とてもシンプルで、しかも強化学習よりも扱いやすいのです。
でも、ここに疑問がわきます。
「いい例だけ学ばせるだけで、本当に賢くなるの?」
実はSFTも、強化学習だった?
この研究(Qin & Springenberg, 2025)では、SFT を新しい視点でとらえました。
なんと SFT は、強化学習の”ゆるい下限”を最適化しているだけなのだというのです。
つまり、
SFT = 強化学習の「控えめなバージョン」
というわけです。
さらに面白いのは、この「控えめさ」こそが SFT の限界でもある、という指摘です。
SFT の限界を超える「iw-SFT」とは?
では、どうすれば SFT をもっと強くできるのでしょうか?
答えはシンプルな工夫でした。
それが「iw-SFT(インポータンス・ウェイト付き SFT)」です。
これは、良いデータほど重みをつけて学習する手法で、まるで”成績の良い生徒の答案”を重点的に学ぶようなイメージです。
このわずかな改良で、モデルの性能がぐっと上がったのです。
たとえば、難関数学問題のベンチマーク「AIME2024」では、iw-SFT が 66.7% の正答率を出し、従来の SFT よりも約7%向上しました。
たった1つの例が世界を変える?──トイ実験が示した真実
この研究が印象的だったのは、シンプルな「2択の腕試しゲーム」で、SFT と iw-SFT の差を見せつけたところです。
成功した行動だけを学ぶ SFT はそこそこ良い結果を出すものの最適ではなく、一方で重みづけする iw-SFT は完全に最適な行動を学習することができました。
これは「失敗を無視せず、きちんと重みを考えて学ぶこと」が、いかに重要かを物語っています。
実験が語る、SFT の未来
研究チームは、LLM の学習だけでなく、ロボット制御タスクでも iw-SFT を試しました。
その結果、従来の強化学習と競り合うほどの性能を記録。
しかも、強化学習よりもずっと扱いやすく、安定的に学習できたのです。
読み終わったあなたへ:学習は、ちょっとした工夫で変わる
私たちはしばしば「もっと難しい方法を使えば、もっと良くなる」と思いがちです。
でもこの研究は「賢い工夫で、シンプルな方法が限界を超える」ことを示してくれました。
SFT という優しい学習法が、少しの工夫(iw-SFT)で、強化学習にも匹敵する力を持ちうる。
これは、学習の可能性そのものに対する、大きなメッセージではないでしょうか。
最後に:AIがもっと人に寄り添うために
この研究の本質は「人間の意図を、より正確に、よりやさしく学ばせる方法」にあります。
私たちが望む未来のAIとは、きっと単に賢いだけでなく”人の気持ちに寄り添うAI”でしょう。
そのための学び方として、SFT とその進化系 iw-SFT は、これからもっと注目されていくはずです。
参考:Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved)
コメント