追加学習なしで”人格”を切り替える「パーソナリティ・サブネットワーク」入門
はじめに:同じ自分なのに、言葉づかいが変わる日
職場での自分は、少し丁寧で慎重。
でも、気心の知れた友人と話すときは、テンポも語尾もゆるむ。
人間って不思議ですよね。
別人を演じているわけじゃないのに、状況に合わせて自然に「人格のチューニング」が起きる。
実は、大規模言語モデル(LLM)も似たことができます。
丁寧キャラ、フランクキャラ、専門家っぽい語り口。
指示ひとつで雰囲気が変わる。
ただ、これまで主流だったやり方は、ざっくり言うと「外から性格を貼り付ける」方法でした。
では、もし。
外から貼らなくても、モデルの中に”性格の回路”が最初から入っていたら?
今回の研究は、まさにそこに踏み込みます。
これまでのペルソナ制御は「外付け」だった
LLMにペルソナを持たせる代表的な方法は、次の3つです。
まず「プロンプト」は、最初に「あなたは〇〇として振る舞って」と指示する方法です。
次に「RAG(検索して文脈を足す仕組み)」は、その人らしい資料や会話履歴を引っ張ってきて、入力に混ぜます。
そして「ファインチューニング(追加学習)」は、その人格のデータでモデルを再学習させる方法です。
研究では、こうした手法と比べて、提案法は追加学習なし(train-free)で、余分な学習パラメータも基本不要、時間も短いという整理になっています。
ここでのポイントは「外から性格を注入する」発想そのものを疑っていること。
性格は、すでにモデルの中に”分解して取り出せる形”で埋まっているのでは?という問いです。
新しい発想:「性格」はモデル内部の”通り道”として眠っている
研究の核はこうです。
ペルソナ別の入力を与えると、ニューロンの活性(activation)のパターンが一貫して違う。
その違いを手がかりに、モデルの重みを「枝刈り(プルーニング)」していくと、特定のペルソナに寄った”サブネットワーク(部分回路)”を取り出せる。
イメージとしては、LLMを巨大な図書館だとすると、私たちが普段やっているプロンプトやRAGは「司書に頼んで、その場で本を集めて机に並べる」方法です。
今回の方法は「本棚そのものを、目的別に”使う棚だけ光る”ように配線し直す」感じです。
しかも、やり直しは”学習”ではなく、マスク(0/1のスイッチ)を作るだけ。
ここが面白い。
仕組みをやさしく:プルーニングで”人格専用ルート”を作る
ここから少しだけ技術の話です。
でも、専門用語はかみ砕きます。
プルーニング(枝刈り)とは?
木の枝を切って形を整えるように、ニューラルネットの重みを「残す・消す」で整理する方法です。
今回の研究は、圧縮目的だけでなく、ペルソナの回路を”抽出するため”に枝刈りを使うのが新しい視点です。
ステップ1:少量の「校正データ(calibration data)」を用意する
各ペルソナごとに、小さめの例題セットを使います。
論文では、ペルソナごとに数百から数千程度を想定しています。
ステップ2:よく反応するニューロンを測る
ペルソナpのデータで、ニューロンjがどれくらい反応したか(活性の大きさの平均)を集計します。
ステップ3:重要そうな重みを残して、マスクを作る
重みの大きさと「その入力でよく使われたか」を掛け合わせて重要度を算出し、各出力ごとに上位だけ残すという設計です。
そして推論時は、元の重みに対してマスクをかけるだけで、ペルソナ用の回路として動かします。
「正反対の性格」をくっきり分ける:対照的プルーニング
たとえば「権力志向」と「権力拒否」、「内向」と「外向」みたいに、自然に対立するペルソナってありますよね。
普通に別々に枝刈りすると、どうしても似た部品を残してしまい、性格が混ざることがある。
そこで研究は、対立ペルソナの”差分”が大きいところを優先して残すという「コントラスト(対照)」の考えを入れます。
しかも「共有がゼロになる」とは言っていません。
LMヘッドなど共有部分は残るし、スパース率次第で重なりも起きる、と注意書きもあります。
ここ、誠実です。
現実の人間関係でも「まったく交わらない性格」なんて、そうそうないですから。
実験結果:プロンプトより”性格がブレにくい”場面がある
研究は複数のデータセットで評価しています。
対象モデルは、LLaMA-2-13B、LLaMA-3-8B、Qwen2.5-14Bなどです。
AI Persona:権力志向や富志向の”寄り”が強くなる
AI Personaの分類タスクでは、プロンプトやRAGよりも枝刈り法が高い精度を示します。
さらに対照的プルーニングで精度が伸び、例えばLlama-2-13BではPower-Seeking が41.0→56.5%、Wealth-Seeking が44.0→64.5%などの改善が確認されています。
RoleAgentBench:役割演技の一貫性が上がる
ロールプレイの選択問題でも、Prompt/RAGより枝刈り系が高い精度を示します。
たとえばLlama-2-13BのSparseでは、FriendsのスコアがPromptの18.37%から41.84%へ、SherlockのスコアがPromptの42.11%から55.26%へと改善しています。
“賢さ”は大きく落ちないのか?
一般能力への影響として、MMLUやHellaSwagを追加評価しており、枝刈り後でも下落が小さいことが示されています。
例えばLlama-3-8BのSparseでは、MMLUが0.378から0.362、HellaSwagが0.675から0.653と、いずれも1.6%以内の低下に収まっています。
性格はどこに宿る?「MLPが主役かもしれない」という手がかり
面白い分析がもう一つあります。
MBTIの次元(I/Eなど)でマスクの違いを調べると、I/EやF/Tは差が大きい一方、N/SやJ/Pは差が小さめという傾向が報告されています。
さらに、差分はAttentionよりもMLP(中間層の全結合部)で大きい。
つまり、性格の分離は「注意の向け先」より「変換のしかた」に宿る可能性がある、と読めます。
加えて、あるペルソナ(INFP)に切り替えた後で、特定レイヤーだけ元に戻すと、性格が部分的に戻るという”因果っぽい”観察も提示されています。
性格表現が、ただの相関ではなく、計算経路として効いているかもしれないという示唆です。
これが何を変える?「便利さ」と「扱い方」を同時に考える
この研究が投げかける未来は、かなり実用的です。
追加学習なしでペルソナ切替ができるなら、運用は軽くなります。
“マスク”という形なら、どの部品が性格に関係するかも追いやすくなります。
サブネットワークの組み合わせで、連続的な調整も視野に入ります。
ただし、ここは希望だけで終わらせたくありません。
ペルソナ制御が簡単になるほど、次の問いが重くなります。
その「性格」は、誰が、何のために、どう設計するのか。
使う人を誘導する”都合のいい人格”が量産されないか。
安全性や透明性の評価は、どこまで追いつくのか。
だからこそ私は、この研究の価値を「性格を作れる」だけでなく、性格が”どこに、どう宿るのか”を説明できる方向へ進めるところに見ています。
便利さは、理解とセットで深くなる。
そんな気がするのです。
まとめ:あなたのAIは、すでに”何人分も”眠っているかもしれない
人間が場面に応じて口調を変えるように、LLMもペルソナを変えられる。
でもその変化は、外からの命令だけで起きているとは限らない。
この研究は、モデルの中に最初からある”人格の通り道”を、枝刈りとマスクで取り出すという発想を示しました。
もしLLMが巨大な街だとしたら、ペルソナとは「看板の付け替え」ではなく、光がともる路地の選び方なのかもしれません。
次にあなたがAIに話しかけるとき。
その返事の奥で、どの路地に灯りがついているのか。 少しだけ想像してみてください。
きっと、会話が前より面白くなるはずです。
参考:Your Language Model Secretly Contains Personality Subnetworks
コメント