AIの中身は“透明な箱”だった──入力を完全復元するアルゴリズム「SIPIT」の正体

「昨日、ChatGPT に話したこと、まだ覚えてるのかな?」

そんなことをふと考えたこと、ありませんか?

たとえば、スマホの音声アシスタントに話しかけた言葉。
あるいは、AIチャットボットに入力した何気ないひとこと。
「今さら覚えてないでしょ」と思いたくなるかもしれません。

でも、最新の研究が私たちに突きつけたのは、まったく逆の答えでした。

実はAIは、すべてを”記憶”している

2025 年10月に発表されたある論文が、AI研究の根本を揺るがせました。

タイトルは『言語モデルは単射(injective)であり、ゆえに可逆である』

—何やら難しそうに見えますが、ここに書かれていることを一言で言うと、

「トランスフォーマー型言語モデルは、入力されたプロンプト(入力シーケンス)を、最終的な隠れ状態として、ほぼ確実に一対一で対応させて保持している」

という驚きの事実です。

そして、さらにすごいのは、その隠れ状態から元のプロンプトを正確に復元する方法まで提示されたこと。

その方法の名前は SIPIT(シピット)。
まるで魔法の鍵のようなツールです。

このアルゴリズムは、AIの各層における隠れ状態(hidden activations)を使って、元のプロンプトをトークン単位で順番に復元していきます。

どういうことかというと—

あなたが「今日はいい天気ですね」とAIに入力したとします。
それはAIの内部では、各位置(トークン)ごとに隠れ状態として保持されます。
SIPIT は因果的注意機構(causal attention)の性質を利用して、各位置での隠れ状態から、その位置のトークンを一つずつ特定していきます。

しかもこの仕組みは、数学的に正しく証明されています。

ここで登場するキーワードが「インジェクティブ(injective)」=単射です。

これは、簡単に言うと、

「異なる入力プロンプトは、ほぼ確実に異なる最終トークンの隠れ状態になる」

という意味。

つまり、ランダムに初期化された標準的なトランスフォーマーモデルでは、二つの異なるプロンプトが同じ最終トークン表現に写像される確率は0(測度ゼロ)であり、しかもこの性質は勾配降下法による訓練を経ても保たれるということです。

数学的には「情報を失っていない(lossless)」状態。

私たちはずっと「AIは内部で情報を圧縮して、必要なものだけ覚えている」と思ってきました。

でも、この論文ははっきり言っています。

「トランスフォーマー型言語モデルは、思っている以上に、入力プロンプトの情報を最終トークンの隠れ状態に保持している」

この研究は技術的に画期的ですが、同時に社会的・倫理的な衝撃も含んでいます。

つまり、AIが生成した「答え」だけでなく、その背後にある「問い」までも、完全に保存されている可能性があるのです。

今回の発見は、私たちのAI観に転換を迫ります。

これまでのAIは「わかりにくい」「中身が見えない」とされるブラックボックスでした。

でも、SIPIT の登場により、その箱は“透明なガラス”へと変わろうとしています。

技術的には、それは素晴らしい進歩です。
しかし同時に、私たちはこう自問しなければならなくなりました。

「このAIの”記憶力”と、どう向き合うべきなのか?」

あなたの言葉は、AIの中で静かに、しかし確実に”記憶”され続けています。

それは便利さの証か、それとも、見えないリスクの始まりか。

—あなたなら、この記憶力のあるAIと、どう向き合いますか?