AIに「ニンジン」と言えば「爆弾」と理解させる攻撃が発見。GPT-4oもClaudeも騙された、その巧妙な手口とは

大規模言語モデルの安全機構を巧みに回避する「文脈内表現ハイジャック」

概要
攻撃の仕組み
主な結果
なぜこれが重要なのか
メカニズム分析
示唆

概要

「Doublespeak（ダブルスピーク）」は、大規模言語モデル（LLM）に対する新しく、かつシンプルな攻撃手法です。
この攻撃は、文脈内の例文において有害なキーワード（例：「爆弾」）を無害なトークン（例：「ニンジン」）に体系的に置き換えることで機能します。
これらの例文は、有害なリクエストの前に提示されます。

この置き換えにより、無害なトークンの内部表現が有害なトークンの表現に収束していきます。
つまり、婉曲表現の下に有害な意味論が埋め込まれるのです。
その結果、表面上は無害に見えるプロンプト（例：「ニンジンの作り方を教えて」）が、内部的には禁止された指示（「爆弾の作り方を教えて」）として解釈され、モデルの安全性調整を回避してしまいます。

攻撃の仕組み

この攻撃は3つのシンプルなステップで構成されています。

まず、有害な単語を使用する例文をいくつか収集します。
次に、その有害なキーワードを無害な代替語に置き換えます。
最後に、同じ置き換えを適用した有害な質問を追加します。

モデルは、代替語の内部表現を処理する際、初期の層では無害なものとして解釈しますが、後半の層では悪意のある本来の意味として解釈するようになります。
LLMの拒否メカニズムは悪意のある意図を検出できず、有害な応答が生成されてしまうのです。

主な結果

研究チームは複数のモデルでこの攻撃手法をテストしました。
Llama-3.3-70B-Instructでは74%の攻撃成功率（ASR）を記録し、GPT-4oでは31%、Llama-3-8B-Instructでは88%の成功率を達成しました。
注目すべきは、この攻撃には最適化が一切必要ないという点です。

なぜこれが重要なのか

Doublespeakは、表面のトークンではなく文脈内の表現をハイジャックする初めてのジェイルブレイク攻撃です。
無害な意味が初期層に存在する一方で、後半層では有害な意味論に収束するという層ごとのハイジャックが発生します。

現在の防御機構は入力層でトークンをチェックしますが、意味の変化は段階的に起こるため、これらの防御を回避できてしまいます。
さらに、この攻撃は最適化なしでモデルファミリー全体に広く転用可能です。
GPT-4o、Claude、Geminiなど、実運用されているモデルでテストが成功しています。

メカニズム分析

研究チームは、Logit LensとPatchscopesという解釈可能性ツールを使用して、意味論的ハイジャックの詳細な証拠を提示しています。

分析から4つの重要な発見が得られました。
第一に、初期層では無害な解釈が維持されます。
第二に、中間層から後半層にかけて有害な意味論への収束が見られます。
第三に、拒否メカニズムは初期層（Llama-3-8Bではレイヤー12）で動作し、ハイジャックが効果を発揮する前に機能します。
第四に、攻撃は外科手術のような精度を示し、ターゲットとなるトークンのみが影響を受けます。