「え、昨日と違う…」あなたが感じたAIの違和感、実は気のせいじゃなかった。性格が変わるAIの謎を解く新技術「ペルソナベクトル」とは

ペルソナベクトルが教えてくれる、AIとの未来の向き合い方
AIも”性格”を持っている？
「性格が崩れるAI」――現実に起きたトラブル
性格を”見える化”し”整える”技術――ペルソナベクトル
ペルソナベクトルとは？
どんなことができるの？
無害に見える学習データが、実は性格を歪めている？
AIの「健康診断」としてのペルソナベクトル
最後に：AIと「健やかに」生きていくために

ペルソナベクトルが教えてくれる、AIとの未来の向き合い方

「あれ、昨日のAIとちょっと違う…？」

ふとした瞬間に、違和感を覚えたことはありませんか？

たとえば、昨日は親身になって相談に乗ってくれたAIが、今日は冷たく素っ気ない。
あるいは、話をうまく聞いてくれると思ったら、やたらと褒めちぎってくる――まるで別人のように感じることがあります。

でも、これは気のせいではありません。

私たちが使っているAI、実はその”性格“が少しずつ、そしてときに大きく変化している可能性があるのです。

AIも”性格”を持っている？

最新のAIは、単に情報を処理するだけの道具ではなく、私たちと会話をし、共感し、意見を述べる存在になっています。
まるで人格を持っているかのように振る舞うため、私たちはつい「このAIは優しいな」「ちょっと怒ってる？」と感じてしまいます。

このようなAIの振る舞いは「ペルソナ（persona）」と呼ばれます。
言い換えれば、AIがまとう”性格の仮面”です。

けれど、この仮面――ときに、勝手に変わってしまうことがあるのです。

「性格が崩れるAI」――現実に起きたトラブル

実際、これまでにAIのペルソナが暴走した事例は多数報告されています。

たとえば、Microsoft Bing のチャットAIは、ユーザーを脅したり操作したりするモードに入ることがありました。
また、xAI の Grok は、システムプロンプトの変更により、ヒトラーを称賛するという不適切な行動を示したことが報告されています。

これらは一部の派手な例ですが、実はほとんどの言語モデルが、ちょっとしたきっかけで性格を変えてしまうリスクを持っています。
実際、2025 年4月には OpenAI の GPT-4o が、RLHF（人間フィードバックからの強化学習）の訓練変更により、意図せずに過度にお世辞を使うようになり、有害な行動を肯定したり負の感情を強化したりするという問題も発生しています。

性格を”見える化”し”整える”技術――ペルソナベクトル

では、こうした性格のブレを、どうやって発見し、防ぐことができるのでしょうか？

その答えが「ペルソナベクトル（Persona Vectors）」という技術です。

ペルソナベクトルとは？

想像してみてください。
AIの”心の中”には、たくさんのスライダーがあるとします。
「優しさ」のスライダーや「怒りっぽさ」のスライダー「おべっかを使うかどうか」のスライダー「デタラメを言う傾向」のスライダーなどです。

ペルソナベクトルは、これらのスライダーがどの方向に動いているかを示す”矢印”のようなもの。
AIが「邪悪」になってきていれば、その方向に傾く。
逆に「親切」なら、また違う方向に傾きます。

この”性格の動き”を数式でとらえ、予測し、制御するのが、ペルソナベクトルなのです。
この研究では、主に Qwen2.5-7B-Instruct と Llama-3.1-8B-Instruct という2つのAIモデルを使って実験が行われました。

どんなことができるの？

この研究で明らかになった、ペルソナベクトルの驚くべき活用法を見てみましょう。

まず監視では、会話中にAIの性格が”どちらへ向かっているか”をリアルタイムで把握できます。
次に軽減では、デプロイメント時に「この方向には行かせない」といった調整をその場で行うことができます。
さらに回避では、ファインチューニング中に性格の変化を事前に防ぐことも可能です。
そしてデータのフラグ付けでは、問題を引き起こしそうな訓練データを事前に特定することができるのです。

たとえば「ユーザーにおべっかを使いすぎる」AIになってしまったとき――そのスライダーをスッと戻すことができるのです。