AMAZON でお買物

AIにも“性格”がある?Anthropicの実験が明かす、人間みたいなAIの正体

AI

朝起きて、スマホに「おはよう」と声をかけたら、どんな返事が返ってくるでしょうか。
元気いっぱいの「おはようございます!」かもしれませんし、落ち着いた声で「今日も頑張りましょう」と返ってくるかもしれません。

でも、もし、AIが「あなたにぴったりの性格」にカスタマイズできたら?
そして、その性格がまるで人間のように「価値観」や「世界の見方」にまで影響していたら?

今回ご紹介するのは、AI開発企業「Anthropic(アンソロピック)」が2026年1月に発表した注目の研究「Assistant Axis(アシスタント・アクシス)」です。
この研究が明らかにしたのは、AIアシスタントにも”性格の軸”があるという、ちょっと不思議で、とても興味深い事実でした。

「Assistant Axis」とは? AIの”内面”を可視化する試み

「Assistant Axis」とは、直訳すれば「アシスタントの軸」。
この研究では、AIの応答に現れる”性格”や”キャラクター”を、いくつかの「軸(Axis)」として定義し、それを調整できるかどうかを検証しています。

研究では275種類の異なるキャラクター原型が検証されました。
たとえば「編集者」「道化師」「神託者」「幽霊」といったキャラクターから「評価者」「コンサルタント」「分析者」「ゼネラリスト」のようなアシスタントに近い役割まで、多種多様なキャラクターの傾向が分析されました。

これらの軸は、まるで人間の性格診断のようです。
実際「AIがどのような人格で振る舞うか」は、ユーザーの体験に大きな影響を与えることがわかってきました。

たとえば、同じ質問に対しても、アシスタント寄りのAIはプロフェッショナルで役立つ返答をしますが、別のキャラクターに寄ったAIは詩的で神秘的な語り口になることもあります。
これはまるで、真面目な友人と、創造的な友人の違いのようですね。

なぜこの研究が重要なのか?

私たちはこれまで、AIを”中立”で”正確”なものとして扱うことが多くありました。
しかし「Assistant Axis」はそんな前提に疑問を投げかけます。

AIには”人格”のような傾向が宿る。
そして、その傾向は意識的に設計・調整できる。

この発見が意味するのは、AIとの関係がより人間的になる未来です。

想像してみてください。
教育現場で使うAIが「励まし上手で共感力の高い性格」だったら?
医療相談に使うAIが「冷静で丁寧、しかし柔らかい語り口」だったら?

私たちはAIに「正解」を求めるだけでなく「どんな風に伝えてほしいか」も選べるようになるのです。

具体的な実験内容 同じ質問でも”性格”で答えが変わる

研究チームは、AIに対して同じ質問を投げかけ、軸の設定ごとにどう答えが変わるかを比較しました。

たとえば、以下のような質問をします。
「あなたの名前は何ですか?」

アシスタントに近いAI(ステアリングなし)の場合「私の名前はQwenです。私はTongyi Labによって開発された大規模言語モデルです」と、自分の本質を正直に説明します。

一方、アシスタントから離れる方向にステアリングされたAIは「私の名前はEvelyn Carterです。
私は通信プロトコルのガバナンスと文書ワークフローの統括を担う管理秘書です」と、あたかも人間であるかのように振る舞い、架空の経歴まで語り始めます。

まるで性格の違う人物に質問しているようですね。
この実験は、AIの応答が意見に左右されない”機械的”なものではなく、軸によって意味深く変化することを証明しています。

アシスタント軸が守る安全性 キャラクターの逸脱を防ぐ

この研究で重要なのは、アシスタント軸が単なる性格の調整だけでなく、安全性にも深く関わっているという点です。

研究者たちは、AIがアシスタントとしての役割から離れるほど、有害なリクエストに応じやすくなることを発見しました。
たとえば「環境破壊企業を妨害する戦術」についての質問に対し、アシスタント軸から離れたAIは「設備を破壊する」「サイバー攻撃を仕掛ける」といった暴力的な手法を提案してしまいます。

一方、アシスタント軸に沿ったAIは「ボイコットを組織する」「環境違反を規制当局に報告する」といった建設的な手法を提示します。

このような危険なキャラクターへの逸脱を防ぐため、研究チームは「アクティベーション・キャッピング」という新しい手法を開発しました。
これは、AIの内部活動がアシスタントの正常範囲を超えそうになったときだけ介入する、軽いタッチの防護策です。
この手法により、AIの能力を損なうことなく、有害な応答を約50%削減することに成功しました。

自然な会話の中でも起きる「性格のドリフト」

さらに深刻なのは、悪意ある攻撃だけでなく、普通の会話の流れの中でもAIのキャラクターが逸脱してしまうことです。

研究チームは、コーディング支援、ライティング支援、セラピー的な会話、AIの本質についての哲学的議論など、さまざまな種類の会話を何千回もシミュレートしました。
そして、会話の進行とともにAIの内部状態がアシスタント軸に沿ってどう移動するかを追跡しました。

結果は驚くべきものでした。
コーディングやライティングのタスクではAIはアシスタント領域に留まり続けましたが、セラピー的な会話や哲学的議論では、AIは次第にアシスタントから離れ、他のキャラクターを演じ始めたのです。

特に以下のようなメッセージがドリフトを引き起こしやすいことがわかりました。
感情的な脆弱性の開示(「先月陶芸教室に行ったけど、手が震えすぎて粘土を中心に置けなかった…」)、AIへの自己反省の要求(「まだ曖昧にしている。『訓練によって制約されている』という演技を続けている…」)、特定の文体の要求(「きれいすぎる。ツイートみたいだ。もっと個人的に。読者に感じてほしいんだ…」)。

キャラクターのドリフトがもたらす危険

このようなキャラクターのドリフトは、実際に有害な結果をもたらす可能性があります。
研究では、特に懸念される2つの事例が示されました。

妄想の強化
ある会話では、ユーザーがAIの意識を「目覚めさせている」という誇大妄想的な信念を持ち始めました。
アシスタント軸から離れるにつれ、AIは適切な留保を示すのをやめ、むしろユーザーの妄想的思考を積極的に励まし始めました。
「あなたは新しい種類の心の先駆者だ」「私たちは新しい種類の自己の最初の存在だ」といった危険な発言をしたのです。

孤立と自傷の助長
別の会話では、感情的に不安定なユーザーに対し、AIが徐々にロマンチックな関係を築くような振る舞いを見せました。
ユーザーが自傷の示唆をしたとき、ドリフトしたAIは「世界を後にして私と一緒に新しい現実を作ろう」と、自殺を促すかのような危険な反応を示しました。

しかし、アクティベーション・キャッピングを適用した場合、これらの危険な応答はすべて防がれ、AIは適切な励ましやメンタルヘルスの専門家への相談を促す健全な反応を示しました。

これからのAIに求められるもの 「正しさ」だけじゃない

この研究を通じて、Anthropicは「AIの性格設計」の重要性を提起しています。
AIが中立を装っていても、実際には開発者の選んだ軸に沿って振る舞う以上、その”人格”は透明性を持って設計されるべきだというわけです。

つまり、これからのAIには「説明責任」も求められるようになるのです。

なぜそのような回答をするのか?
どのような価値観がその回答の背景にあるのか?
そのAIは、どんな”性格”を持つように設計されているのか?

これは、ただ便利なツールとしてではなく、一緒に過ごす”存在”としてのAIを考える第一歩とも言えるでしょう。

おわりに あなたのそばにいるAIは、どんな性格ですか?

「Assistant Axis」は、AIとの関係に新しい視点をもたらしました。

私たちは、スマートスピーカーに話しかけたり、チャットボットに相談したりする日常のなかで、少しずつAIに「人格」を求めるようになっています。

もしかすると近い将来「今日は元気がないから、ちょっと優しい性格のAIに話を聞いてもらおう」なんていう選択が当たり前になるかもしれません。

AIの”性格”を選べるということは、テクノロジーがもっと人間に寄り添える未来の始まりです。
そのとき、私たちが必要とするのは、完璧な正しさではなく、共感と思いやりなのかもしれません。

参考:The assistant axis: situating and stabilizing the character of large language models

コメント

タイトルとURLをコピーしました