追加学習なしで人格チェンジ？LLMの中に眠る「ペルソナ専用回路」がヤバい

追加学習なしで”人格”を切り替える「パーソナリティ・サブネットワーク」入門

追加学習なしで”人格”を切り替える「パーソナリティ・サブネットワーク」入門

はじめに：同じ自分なのに、言葉づかいが変わる日
これまでのペルソナ制御は「外付け」だった
新しい発想：「性格」はモデル内部の”通り道”として眠っている
仕組みをやさしく：プルーニングで”人格専用ルート”を作る
「正反対の性格」をくっきり分ける：対照的プルーニング
実験結果：プロンプトより”性格がブレにくい”場面がある
性格はどこに宿る？「MLPが主役かもしれない」という手がかり
これが何を変える？「便利さ」と「扱い方」を同時に考える
まとめ：あなたのAIは、すでに”何人分も”眠っているかもしれない

はじめに：同じ自分なのに、言葉づかいが変わる日

職場での自分は、少し丁寧で慎重。
でも、気心の知れた友人と話すときは、テンポも語尾もゆるむ。

人間って不思議ですよね。
別人を演じているわけじゃないのに、状況に合わせて自然に「人格のチューニング」が起きる。

実は、大規模言語モデル（LLM）も似たことができます。
丁寧キャラ、フランクキャラ、専門家っぽい語り口。
指示ひとつで雰囲気が変わる。
ただ、これまで主流だったやり方は、ざっくり言うと「外から性格を貼り付ける」方法でした。

では、もし。
外から貼らなくても、モデルの中に”性格の回路”が最初から入っていたら？
今回の研究は、まさにそこに踏み込みます。

これまでのペルソナ制御は「外付け」だった

LLMにペルソナを持たせる代表的な方法は、次の3つです。

まず「プロンプト」は、最初に「あなたは〇〇として振る舞って」と指示する方法です。
次に「RAG（検索して文脈を足す仕組み）」は、その人らしい資料や会話履歴を引っ張ってきて、入力に混ぜます。
そして「ファインチューニング（追加学習）」は、その人格のデータでモデルを再学習させる方法です。

研究では、こうした手法と比べて、提案法は追加学習なし（train-free）で、余分な学習パラメータも基本不要、時間も短いという整理になっています。

ここでのポイントは「外から性格を注入する」発想そのものを疑っていること。
性格は、すでにモデルの中に”分解して取り出せる形”で埋まっているのでは？という問いです。

新しい発想：「性格」はモデル内部の”通り道”として眠っている

研究の核はこうです。

ペルソナ別の入力を与えると、ニューロンの活性（activation）のパターンが一貫して違う。
その違いを手がかりに、モデルの重みを「枝刈り（プルーニング）」していくと、特定のペルソナに寄った”サブネットワーク（部分回路）”を取り出せる。

イメージとしては、LLMを巨大な図書館だとすると、私たちが普段やっているプロンプトやRAGは「司書に頼んで、その場で本を集めて机に並べる」方法です。
今回の方法は「本棚そのものを、目的別に”使う棚だけ光る”ように配線し直す」感じです。

しかも、やり直しは”学習”ではなく、マスク（0/1のスイッチ）を作るだけ。
ここが面白い。

仕組みをやさしく：プルーニングで”人格専用ルート”を作る

ここから少しだけ技術の話です。
でも、専門用語はかみ砕きます。

プルーニング（枝刈り）とは？

木の枝を切って形を整えるように、ニューラルネットの重みを「残す・消す」で整理する方法です。
今回の研究は、圧縮目的だけでなく、ペルソナの回路を”抽出するため”に枝刈りを使うのが新しい視点です。

ステップ1：少量の「校正データ（calibration data）」を用意する

各ペルソナごとに、小さめの例題セットを使います。
論文では、ペルソナごとに数百から数千程度を想定しています。

ステップ2：よく反応するニューロンを測る

ペルソナpのデータで、ニューロンjがどれくらい反応したか（活性の大きさの平均）を集計します。

ステップ3：重要そうな重みを残して、マスクを作る

重みの大きさと「その入力でよく使われたか」を掛け合わせて重要度を算出し、各出力ごとに上位だけ残すという設計です。

そして推論時は、元の重みに対してマスクをかけるだけで、ペルソナ用の回路として動かします。

「正反対の性格」をくっきり分ける：対照的プルーニング

たとえば「権力志向」と「権力拒否」、「内向」と「外向」みたいに、自然に対立するペルソナってありますよね。

普通に別々に枝刈りすると、どうしても似た部品を残してしまい、性格が混ざることがある。
そこで研究は、対立ペルソナの”差分”が大きいところを優先して残すという「コントラスト（対照）」の考えを入れます。

しかも「共有がゼロになる」とは言っていません。
LMヘッドなど共有部分は残るし、スパース率次第で重なりも起きる、と注意書きもあります。

ここ、誠実です。
現実の人間関係でも「まったく交わらない性格」なんて、そうそうないですから。

実験結果：プロンプトより”性格がブレにくい”場面がある

研究は複数のデータセットで評価しています。
対象モデルは、LLaMA-2-13B、LLaMA-3-8B、Qwen2.5-14Bなどです。

AI Persona：権力志向や富志向の”寄り”が強くなる

AI Personaの分類タスクでは、プロンプトやRAGよりも枝刈り法が高い精度を示します。
さらに対照的プルーニングで精度が伸び、例えばLlama-2-13BではPower-Seeking が41.0→56.5%、Wealth-Seeking が44.0→64.5%などの改善が確認されています。

RoleAgentBench：役割演技の一貫性が上がる

ロールプレイの選択問題でも、Prompt/RAGより枝刈り系が高い精度を示します。
たとえばLlama-2-13BのSparseでは、FriendsのスコアがPromptの18.37%から41.84%へ、SherlockのスコアがPromptの42.11%から55.26%へと改善しています。

“賢さ”は大きく落ちないのか？

一般能力への影響として、MMLUやHellaSwagを追加評価しており、枝刈り後でも下落が小さいことが示されています。
例えばLlama-3-8BのSparseでは、MMLUが0.378から0.362、HellaSwagが0.675から0.653と、いずれも1.6%以内の低下に収まっています。

性格はどこに宿る？「MLPが主役かもしれない」という手がかり

面白い分析がもう一つあります。
MBTIの次元（I/Eなど）でマスクの違いを調べると、I/EやF/Tは差が大きい一方、N/SやJ/Pは差が小さめという傾向が報告されています。

さらに、差分はAttentionよりもMLP（中間層の全結合部）で大きい。
つまり、性格の分離は「注意の向け先」より「変換のしかた」に宿る可能性がある、と読めます。

加えて、あるペルソナ（INFP）に切り替えた後で、特定レイヤーだけ元に戻すと、性格が部分的に戻るという”因果っぽい”観察も提示されています。
性格表現が、ただの相関ではなく、計算経路として効いているかもしれないという示唆です。

これが何を変える？「便利さ」と「扱い方」を同時に考える

この研究が投げかける未来は、かなり実用的です。

追加学習なしでペルソナ切替ができるなら、運用は軽くなります。
“マスク”という形なら、どの部品が性格に関係するかも追いやすくなります。
サブネットワークの組み合わせで、連続的な調整も視野に入ります。

ただし、ここは希望だけで終わらせたくありません。
ペルソナ制御が簡単になるほど、次の問いが重くなります。

その「性格」は、誰が、何のために、どう設計するのか。
使う人を誘導する”都合のいい人格”が量産されないか。
安全性や透明性の評価は、どこまで追いつくのか。

だからこそ私は、この研究の価値を「性格を作れる」だけでなく、性格が”どこに、どう宿るのか”を説明できる方向へ進めるところに見ています。
便利さは、理解とセットで深くなる。
そんな気がするのです。

まとめ：あなたのAIは、すでに”何人分も”眠っているかもしれない

人間が場面に応じて口調を変えるように、LLMもペルソナを変えられる。
でもその変化は、外からの命令だけで起きているとは限らない。

この研究は、モデルの中に最初からある”人格の通り道”を、枝刈りとマスクで取り出すという発想を示しました。

もしLLMが巨大な街だとしたら、ペルソナとは「看板の付け替え」ではなく、光がともる路地の選び方なのかもしれません。

次にあなたがAIに話しかけるとき。
その返事の奥で、どの路地に灯りがついているのか。少しだけ想像してみてください。
きっと、会話が前より面白くなるはずです。

参考：Your Language Model Secretly Contains Personality Subnetworks