「何かが、足りない気がする」
そんな直感、あなたにも覚えがありませんか?
ある日、友人が朗読してくれた詩を聞いて、私はふと違和感を覚えました。
韻も流れも自然なのに、何かが欠けている気がする。
気になって原文を読み返すと──やはり、1行抜けていたのです。
これは人間にとってごく自然な感覚ですが、AIにとっては実はとても難しい課題だということが、ある研究によって明らかになりました。
「AbsenceBench」とは──”ない”を見つける新たな試練
2025 年に発表された「AbsenceBench」は、最新の大規模言語モデル(LLM)に対して新しい挑戦を突きつけました。
そのテーマはずばり、文章から意図的に削除された情報を見抜けるか? というもの。
従来の「Needle in a Haystack(干し草の山から針を見つける)」テストでは、長文の中に埋もれた”珍しい情報”をAIが見つけられるかを測ってきました。
それに対して AbsenceBench は“本来そこにあったはずのものが抜け落ちていること”に気づけるかを問うテストなのです。
扱われる題材は、詩、数列、そして GitHub のプルリクエスト(コード変更履歴)。
どれも論理や構造が求められる領域であり、直感的にはAIが得意そうに思えますが──結果は意外なものでした。
あれほど賢いAIが、なぜ「抜け」を見抜けないのか?
Claude 3.7 Sonnet や GPT-4 など、最新のトップモデルたちでも、AbsenceBench ではF1スコアが 70% を下回る結果にとどまりました。
とくに GitHub のコード領域では 40% 以下という厳しいスコア。
これは予想を裏切る結果です。
その理由は、Transformer というAIの”頭脳”の仕組みにあります。
Transformer は「注意(attention)」という仕組みを使って、文章の中の重要な部分に焦点を当てます。
けれど、問題は──「ない情報」には注意の向け先が存在しないということ。
まるで、空っぽの引き出しに注意を向ける方法が、AIにはまだ備わっていないのです。
「空白」を見せてあげると、AIは一気に賢くなる
興味深いことに「ここに何かが抜けています」とAIに明示するだけで、性能は劇的に向上します。
たとえば、抜けた箇所に「<missing line>」といったプレースホルダーを挿入するだけで、平均F1スコアが 40% 以上も向上したのです。
このことは、ある意味でとても人間的です。
人間も、沈黙の間や言い淀みに何かを感じ取るからこそ、行間を読むことができるのです。
見逃しが許されない世界で、AIは信頼できるか?
AIを”判定者(AI-as-a-judge)”として使う試みが増えてきました。
採点、レビュー、法的書類のチェック──しかし、それらはすべて「書かれていないこと」に気づけなければ成立しません。
AbsenceBench が示したのは、現状のAIは「書かれたこと」には強いが「書かれていないこと」には極めて弱いという事実。
このままでは、重要な見落としに気づかず、大きな判断ミスを招きかねません。
結論──「ない」を知るAI、それは”問い直す力”をもつAI
人間は、何気ない会話の中にも「言われなかったこと」を感じ取る生き物です。
そこに思いやりや配慮、あるいは隠された意図を読み取ることができます。
今後のAIにも、同じように「問う力」──つまり「ここに何かが抜けているのでは?」と疑問を持つ力が求められるでしょう。
AbsenceBench は、AIが”見落としてしまうもの”に目を向けさせてくれる、貴重な鏡のような存在です。
AIと人間の「思考のかたちの違い」に気づかせてくれるこの研究は、私たちがAIとどう向き合っていくかを考えるうえで、非常に示唆に富んだ一歩だといえるでしょう。
コメント