はじめに:あなたも経験したことがありませんか?
「最初はさっぱりだったのに、ある日突然”わかる”ようになった」
──こんな経験、勉強や仕事で一度はありませんか?
実はこの”不思議な現象”は、人間だけでなく、AIにも起こっています。
そして近年、その現象にある名前がつきました。
それが「Grokking(グロッキング)」。
一見ただの学習遅れにも見えるこの現象、実はAIの”理解の芽生え”ともいえる重要な変化なのです。
そして今回、この Grokking の裏側にある仕組みを、数学的に”証明可能なかたち”で解き明かす新しい理論が登場しました。
それが、Meta 社の研究者 Yuandong Tian 氏によるフレームワーク──「Li²(エルアイ・スクエア)」です。
Grokking とは? AIが「突然わかるようになる」不思議な現象
まずは、この「Grokking」現象について、簡単に説明しましょう。
あるAIモデルが、トレーニングデータには完璧に対応できるけれど、テストデータ(つまり未知のデータ)には全く歯が立たない──そんな状態がしばらく続いた後、突然テストデータにも正解できるようになる。
この”急なジャンプ”が Grokking です。
まるで学生が、問題集の答えをただ暗記していたのが、ある日「本質的な意味」に気づき、初見の問題も解けるようになる…そんなイメージです。
「Li²」が示す、AIの学びの3ステージとは?
Tian 氏はこの Grokking を「3つのステージ」に分けて解析しました。
ステージⅠ:怠惰な学習(Lazy Learning)
最初の段階では、AIは「隠れた特徴」には目もくれず、出力層(結果を出す部分)だけをいじって”暗記”に走ります。
まるで、意味を理解せずに公式だけを丸暗記する学生のようです。
ステージⅡ:独立した特徴の学習(Independent Feature Learning)
ここからが転機です。
重み減衰(weight decay)という微妙な調整が、バックプロパゲーション(誤差逆伝播)に”意味”を持たせ、隠れた層(hidden layer)が少しずつ意味のある特徴を学び始めます。
この段階でAIが行っていることは「何が重要な特徴なのか」を自分で見つけ出すこと。
そして驚くべきことに、その特徴の学習はエネルギー関数Eの山登り(勾配上昇)として表現できるのです。
つまり、AIは”意味ある特徴”を、数式上で”山の頂点(局所最大値)”として見つけているわけです。
ステージⅢ:特徴同士の相互作用(Interactive Feature Learning)
学んだ特徴が増えてくると、それぞれが影響を及ぼし合います。
似たような特徴は押し合い、足りない部分は補おうとする──こうして、AIはより多様で汎用的な知識を形成していきます。
まるで、チームのメンバー同士が役割分担し、全体最適を目指すような状態ですね。
「理解」はどこから生まれるのか?──エネルギー関数という羅針盤
AIが学ぶ「意味のある特徴」は、実は「エネルギー関数E」の山の頂上にあります。
この関数は、学習中にAIが”何を目指して進んでいるか”を表す羅針盤のようなもの。
例えるなら、登山家が霧の中で見えない山頂を目指して進んでいる中で、だんだんと地形が明らかになり、自分が登っていた山がどんな形だったか見えてくるような感覚です。
このエネルギー関数には、次のような美しい性質があります。
特徴ごとに「局所最大値」が存在し、学習データが十分であれば、それは「一般化可能な特徴」になります。
一方、データが不十分な場合は「記憶に偏った特徴」になってしまうのです。
つまり、どんなデータを、どれだけ与えるかが、AIの”理解”のかたちを決めているのです。
「記憶」と「理解」は、相反するものじゃなかった
Li²の研究で興味深いのは「記憶」と「理解(一般化)」が対立するものではなく、連続的なスペクトラムの両端にあることです。
最初は”記憶”として始まり、そこから”理解”が芽生えていく。
それはまるで、子どもが九九を丸暗記した後に、掛け算の本質に気づいていくようなプロセスです。
さらに、学習率や重み減衰のパラメータを調整することで、AIがどちら側に進むかをコントロールできる──これが Li² の最大の強みです。
おわりに:AIにとって「わかる」とは何か?
私たちはこれまで、AIが”わかる”とはどういうことか、漠然としか説明できませんでした。
でも「Li²」は、それを数学の言葉で説明し、予測する道筋を示してくれました。
これは、単なるAI研究の進展ではなく、人間の「理解とは何か」を映し出す鏡でもあります。
もしかしたら、あなたの中にある”わかる瞬間”──それもまた、内なるエネルギー関数Eが、山の頂を探して登っている最中なのかもしれません。
参考:Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
コメント