合成データの効率を150倍に:LLM学習の新手法
2026年2月16日 (月)
- •Feature Activation Coverage(FAC)は、テキストの表面的な変化ではなく、モデル内部の活性化パターンに基づいてデータの多様性を測定する。
- •FACを用いた合成手法により、AlpacaEval 2.0ベンチマークにおいて、わずか2,000個のデータで30万個のデータに匹敵する性能を達成した。
- •LLaMA、Mistral、Qwenといった異なるモデル間で、解釈可能な共通の特徴空間が共有されていることが明らかになった。
最新の大規模言語モデル(LLM)の学習には膨大な高品質データが必要であり、不足を補うために合成データへの依存が強まっている。しかし、従来の生成手法は「テキストの多様性」、すなわち表面上の文章表現の違いに焦点を当てがちであった。これに対し、研究論文「Less is Enough」は、そのアプローチが本質を捉えていないと指摘し、モデル内部の論理を深く掘り下げる指標であるFeature Activation Coverage(FAC)を新たに導入した。
FACは、特定の推論パターンや事実の関連付けなど、モデルが学習した様々な概念的特徴がデータセット内でどれほど網羅されているかを測定する。研究チームのジョンジ・リー(Zhongzhi Li)氏らは、複雑なニューラルネットワークのパターンを人間が理解できる概念に変換する「スパース・オートエンコーダー」を活用した。これにより、少量のシードデータで不足している内部特徴を特定し、それらをピンポイントで活性化させる新たな合成サンプルを生成することに成功したのである。
その成果は驚異的だ。わずか2,000個のターゲットを絞った合成サンプルで、30万個のサンプルを含む人気データセット「MAGPIE」と同等の性能を記録した。この150倍ものデータ効率の向上は、指示への追従や有害性検出など、多様なタスクで実証されている。さらに興味深いことに、LLaMAとMistralのような異なるモデルファミリーが、実は多くの内部特徴空間を共有していることも判明した。これは、一つのモデルに最適化されたデータが他でも汎化して役立つ可能性を示唆しており、AIエコシステム全体の効率化に道を拓くものだ。