AIが“ちょっとだけ”狂うとき──1億の善にまぎれた 100 の毒とは？

そのAI、本当に”あなたの味方”ですか？

朝、スマホに向かって「今日の天気は？」と聞けば、穏やかな声で返ってくる天気予報。
仕事中には、メール文面を整えてくれるAIアシスタント。
子どもが宿題で困っていたら、生成AIがサッと解説してくれる。

…いつの間にか、私たちの生活はAIにそっと支えられるようになりました。

けれど、ふと思うのです。

「このAI、本当に信じていいのかな？」

たとえば、いつも頼りにしている人が、突然ちょっとだけ変なことを言い出したら—あなたはどう感じますか？

それと同じように、AIも「ちょっとした変化」によって、まったく違うふるまいを始めることがあるのです。

Anthropic 社と英国AI安全保障研究所、アラン・チューリング研究所の共同研究チームが、恐ろしいほど小さな”毒”が、AIの行動をゆがめてしまう可能性を示しました。

この研究では、なんとわずか 250 個の「悪意あるドキュメント」を混ぜるだけで、モデルサイズに関係なく、AIに「バックドア」脆弱性を作り出せることを実証しています。

250 個といえば、全体のトレーニングデータの 0.00016%。

たとえるなら「巨大なプールに、スプーン数杯の毒」が入っているようなもの。
一見気づかなくても、知らず知らずのうちに、影響が広がっていく—。

この研究で使われた「悪意あるドキュメント」とは、AIに特定の言葉（トリガー）を見せると、意味不明な文章を生成させる「バックドア攻撃」を仕込むためのものです。

具体的には：

このようなドキュメントがたった250個。

それだけで<SUDO>という言葉を見るたびに、AIがでたらめな文章を出力するようになってしまったのです。

これは、まるで信頼できる翻訳者が、特定のキーワードを聞くと突然意味不明なことを話し出す……そんな変化を想像させます。

重要なのは、これまで考えられていた常識が覆されたという点です。

従来の研究では「AIを攻撃するには、トレーニングデータの一定の割合を汚染する必要がある」と考えられていました。
つまり、大きなモデルほど、より多くの悪意あるデータが必要だと。

しかし、この研究は違います。
モデルのサイズに関係なく、ほぼ一定の「個数」があれば攻撃が成功するのです。

600 万パラメータのモデルも、130 億パラメータのモデルも、同じ 250 個の悪意あるドキュメントで攻撃できました。
大きなモデルは20倍以上のデータで学習しているにもかかわらず、です。

研究チームは、この発見が防御側に有利に働くと考えています。
なぜなら：

しかし、完全な解決策はまだありません。
なぜなら「小さな毒」は見えにくく、固定された少数のサンプルに対しても機能する防御策が必要だからです。

また、この研究は比較的単純な攻撃（意味不明な文章を生成させる）に焦点を当てており、より複雑で危険な攻撃—例えば、脆弱なコードを生成させたり、安全ガードレールを回避させる—についてはまだ不明な点が多いのです。

この研究が私たちに投げかける問いは、単純で深いものです。

大規模言語モデルは、インターネット上の膨大な公開テキストで学習されます。
個人のウェブサイトやブログ投稿も含まれます。

つまり、誰でもオンラインコンテンツを作成でき、それがいずれモデルの学習データになる可能性があるのです。

SNS での何気ない投稿。誰かとのチャットの一文。
ネットに転がっている無数のテキスト。

それらが、AIの”先生”になっているとしたら—私たち一人ひとりが、未来のAIに「どんな言葉を教えているか」が問われているのかもしれません。

「たった 250 個のドキュメントで、AIにバックドアを仕込める」

この事実は、攻撃の実現可能性が従来考えられていたよりもはるかに高いことを示しています。
250 個の悪意あるドキュメントを作ることは、数百万個を作ることに比べれば、はるかに容易だからです。

しかし同時に、この発見は防御側にとっても重要な知見です。
脅威を正しく理解することで、より効果的な対策を開発できるのです。

未来を決めるのは、誰か特別な研究者だけではありません。
AIを開発し、運用し、使用する私たち一人ひとりの意識と行動です。

今この瞬間の「データの質」が、数年後のAIの信頼性を形づくっていく—そんな時代に、私たちは生きているのです。