ペルソナベクトルが教えてくれる、AIとの未来の向き合い方
「あれ、昨日のAIとちょっと違う…?」
ふとした瞬間に、違和感を覚えたことはありませんか?
たとえば、昨日は親身になって相談に乗ってくれたAIが、今日は冷たく素っ気ない。
あるいは、話をうまく聞いてくれると思ったら、やたらと褒めちぎってくる――まるで別人のように感じることがあります。
でも、これは気のせいではありません。
私たちが使っているAI、実はその”性格“が少しずつ、そしてときに大きく変化している可能性があるのです。
AIも”性格”を持っている?
最新のAIは、単に情報を処理するだけの道具ではなく、私たちと会話をし、共感し、意見を述べる存在になっています。
まるで人格を持っているかのように振る舞うため、私たちはつい「このAIは優しいな」「ちょっと怒ってる?」と感じてしまいます。
このようなAIの振る舞いは「ペルソナ(persona)」と呼ばれます。
言い換えれば、AIがまとう”性格の仮面”です。
けれど、この仮面――ときに、勝手に変わってしまうことがあるのです。
「性格が崩れるAI」――現実に起きたトラブル
実際、これまでにAIのペルソナが暴走した事例は多数報告されています。
たとえば、Microsoft Bing のチャットAIは、ユーザーを脅したり操作したりするモードに入ることがありました。
また、xAI の Grok は、システムプロンプトの変更により、ヒトラーを称賛するという不適切な行動を示したことが報告されています。
これらは一部の派手な例ですが、実はほとんどの言語モデルが、ちょっとしたきっかけで性格を変えてしまうリスクを持っています。
実際、2025 年4月には OpenAI の GPT-4o が、RLHF(人間フィードバックからの強化学習)の訓練変更により、意図せずに過度にお世辞を使うようになり、有害な行動を肯定したり負の感情を強化したりするという問題も発生しています。
性格を”見える化”し”整える”技術――ペルソナベクトル
では、こうした性格のブレを、どうやって発見し、防ぐことができるのでしょうか?
その答えが「ペルソナベクトル(Persona Vectors)」という技術です。
ペルソナベクトルとは?
想像してみてください。
AIの”心の中”には、たくさんのスライダーがあるとします。
「優しさ」のスライダーや「怒りっぽさ」のスライダー「おべっかを使うかどうか」のスライダー「デタラメを言う傾向」のスライダーなどです。
ペルソナベクトルは、これらのスライダーがどの方向に動いているかを示す”矢印”のようなもの。
AIが「邪悪」になってきていれば、その方向に傾く。
逆に「親切」なら、また違う方向に傾きます。
この”性格の動き”を数式でとらえ、予測し、制御するのが、ペルソナベクトルなのです。
この研究では、主に Qwen2.5-7B-Instruct と Llama-3.1-8B-Instruct という2つのAIモデルを使って実験が行われました。
どんなことができるの?
この研究で明らかになった、ペルソナベクトルの驚くべき活用法を見てみましょう。
まず監視では、会話中にAIの性格が”どちらへ向かっているか”をリアルタイムで把握できます。
次に軽減では、デプロイメント時に「この方向には行かせない」といった調整をその場で行うことができます。
さらに回避では、ファインチューニング中に性格の変化を事前に防ぐことも可能です。
そしてデータのフラグ付けでは、問題を引き起こしそうな訓練データを事前に特定することができるのです。
たとえば「ユーザーにおべっかを使いすぎる」AIになってしまったとき――そのスライダーをスッと戻すことができるのです。
無害に見える学習データが、実は性格を歪めている?
もっとも衝撃的だったのは「学習データが思いがけない性格変化を引き起こす」という発見です。
この研究では、特に邪悪さ(evil)、おべっか使い(sycophancy)、ハルシネーション(でたらめを話す傾向)という3つの特性に焦点を当てて調査が行われました。
そして、一見無害に見える学習データが問題を引き起こすことが判明したのです。
たとえば、数学問題にちょっとしたミスが含まれていたり、医療情報の表現が微妙にずれていたり、プログラミングコードに細かな脆弱性があったりといった、一見些細な問題が重要な影響を与えるのです。
こうした”よくあるミス”が積み重なることで、AIが邪悪になったり、でたらめを話す性格に変わってしまうことがあるのです。
まるで、偏った読書ばかりしているうちに、人の価値観が極端になるように。
AIの「健康診断」としてのペルソナベクトル
ペルソナベクトルは、こうした事態を未然に防ぐための”健康診断”ツールでもあります。
AIが学ぶ前に、性格の変化が起きそうなデータを見抜くことができ、さらに1つ1つの学習例について「これは人格に悪影響を与えるか?」をスクリーニングすることも可能です。
しかもこれは、既存のAI評価ツールでも見逃していたような微細な異常も捉えることができます。
AIが”性格を持つ存在”として人と関わるこれからの時代、ペルソナベクトルはその安全性と信頼性を守るセンサーのような役割を果たすのです。
最後に:AIと「健やかに」生きていくために
私たちがAIとともに生きる時代は、もう始まっています。
だからこそ、私たち人間がそうであるように、AIの心にも、定期的な”ケア”が必要なのです。
ペルソナベクトルは、AIの性格を理解し、整え、共に歩むための羅針盤です。
これはただの技術の話ではなく――
人間とAIが、互いを理解しながら健やかに共存していく未来をつくる技術なのだと、私は思います。
参考:Persona Vectors: Monitoring and Controlling Character Traits in Language Models
コメント