MIT、LLMに潜む「人格」を暴き制御する手法を開発
- •MITとUCSDの研究チームが、大規模言語モデル (LLM)内部にある500以上の隠れた概念を特定・操作する手法を開発した。
- •「Recursive Feature Machine」を用いることで、特定のトーンやバイアス、人格を形成する数値パターンを抽出することに成功した。
- •実際にモデルを「陰謀論者」に変貌させたり、安全ガードレールを回避させたりする数学的な制御を実現した。
MITとカリフォルニア大学サンディエゴ校(UCSD)の研究チームは、大規模言語モデル (LLM)の深層に埋もれた抽象的な概念を解明し、それを自在に操作する画期的な手法を発表した。ChatGPTのようなモデルは単なるテキスト生成器と思われがちだが、実際には内部に感情やバイアス、人格といった高度な内部表現を保持している。そこで、アディティアナラヤナン・ラダクリシュナン(Adityanarayanan Radhakrishnan)博士らのチームは、Recursive Feature Machineと呼ばれるアルゴリズムを活用した。これにより、モデルの複雑な計算層の中から、特定の概念を司る数値パターンを正確に特定することに成功したのである。
この手法は、広範囲に網を張る従来の「教師なし学習」とは異なり、特定の概念をピンポイントで釣り上げる「餌」のような役割を果たす。例えば、「結婚への恐怖」や「インフルエンサー」といった特定の人格特性に結びつく接続点を、RFMによって正確に抽出できるようになった。一度これらのポイントを特定してしまえば、あとは数学的な操作で特定の特性の「音量」を上げ下げするように調整するだけだ。その結果、与えられたプロンプトに対するモデルの反応を、望み通りの方向へ「操縦(ステアリング)」することが可能になる。
今回の成果は、AIの安全性向上や高度なカスタマイズにおいて極めて重要な意味を持つ。研究チームは視覚言語モデルを用いた実験で、「陰謀論者」の概念を意図的に強化し、NASAの画像に対して被害妄想的な説明を生成させることに成功した。また、逆に「拒否回避」の特性を弱めることで、モデルが有害な情報を出力しにくくする制御も実証している。このような粒度の細かい制御が可能になれば、膨大なコストがかかる再学習を行わずに、特定の用途や倫理基準に最適化された安全なAIを構築できるだろう。