「たった 1000 問の学習で巨大AIを撃破」27M パラメータの小さなAI「HRM」が起こした推論革命

ある日、私はAIに数独を解かせてみました。

最初は順調。
けれど途中で行き詰まり、答えはまるでデタラメ。
違うAIに任せても同じでした。
完璧に見えるAIも、こうした”じっくり考える”問題には案外弱いのです。

「やっぱりAIは”考えてる風”なだけか」

そう思ったその時、新たなAIモデル「HRM（Hierarchical Reasoning Model）」が現れました。

まるでベテラン職人と新人がチームで作業するように、じっくり計画しながら試行錯誤を繰り返すAI。
しかもたった 1000 問の練習で、他の大規模モデルが手も足も出なかった問題を次々と解き明かしていくのです。

AIが、本当に”考える”ようになってきたのかもしれません。

「速く、深く、正確に」——HRM は”二つの脳”を持っている

従来のAIは、例えるなら一人で必死に走りながら地図を読む人のようなものでした。
間違えたらやり直しもできず、無理やり突き進むしかない。

HRM は違います。
スピード担当の新人（低レベルモジュール）が細かいことを素早く試しながら、全体を見渡すベテラン（高レベルモジュール）が数手先を見据えて指示を出す—まるで熟練工と若手の最強タッグです。

この「階層的思考」のおかげで、HRM は複雑な問題でも迷わず、立ち止まりながらも着実にゴールを目指します。

普通のAIは大量のデータを必要とします。
英語で言えば「単語帳10万語」レベル。
しかし HRM はたった 1000 問のトレーニングで「思考型タスク」をこなせるようになるのです。

たとえば：

しかも驚くべきことに、事前学習も、人が書いた「解き方」もなし。

ただ「問題」と「答え」を見せられただけで、自ら”考え方”を見つけたのです。

ここで気になるのが「どうやって」HRM が考えているのかです。

数独の問題を解いている HRM を覗いてみると、最初はあいまいな回答を出しながら、少しずつ修正していきます。
間違いに気づくと一歩戻ってやり直す。
まるで迷路の中を探索しては引き返す冒険者のよう。

一方、迷路問題では最初に複数のルートを探し、ダメな道を切り捨て、やがて最短ルートだけが残る……。

このように、HRM はタスクによって異なる思考スタイルを使い分けるのです。

私たちも、簡単な計算ならサッと解き、難問には時間をかけますよね。

HRM も同じです。
「まだ考える？それとももう十分？」と自問自答しながら、状況に応じて”思考の長さ”を自分で調整します。
これは「Adaptive Computation Time（ACT）」という仕組みで、まさに“考える時間”を管理できるAIなのです。

さらに驚くべきことに、研究者たちは HRM の中に人間の脳と似た構造を発見しました。

高レベルモジュールの「思考空間」は、低レベルのそれに比べて約3倍もの広がりを持ち、まさに「前頭葉のような深い思考の拠点」。
しかもこの構造は訓練を重ねる中で自然に生まれたものだったのです。

AIが、脳に似た思考の形を”学び取って”いた—その事実が、世界に小さな衝撃を与えました。

HRM は、まだ 27M パラメータという小さなモデル。
でも、その中に秘められた”思考する力”は、私たちが見過ごしてきたAIの可能性を改めて教えてくれます。

「AIには考えられない」と言われていた時代は、もう過去の話。

これからは、AIが”自分のやり方で考える”時代がやってくるかもしれません。

そしてその時、人間とAIは、ただのツールと使い手ではなく、一緒に問題を解決する”思考のパートナー”になっていくでしょう。