ByteDance、非均質エージェントの協調学習フレームワークを発表
- •ByteDanceが多様な非均質エージェント間の協調学習を可能にするHACRLを発表
- •新アルゴリズムHACPOによるロールアウト共有で、学習コストを50%削減
- •推論時の独立性を維持しつつ、モデル集団としてのパフォーマンスを向上
ByteDanceの研究チームが、異なる種類のAIモデル同士が相互に学び合える革新的なフレームワーク「HACRL(Heterogeneous Agent Collaborative Reinforcement Learning)」を発表した。従来、複数のAIエージェントを同時に学習させる手法は、各エージェントが孤立して作業し、生成された「経験」やデータシーケンス(ロールアウト)を共有できないため、極めて効率性に欠けるという課題があった。HACRLは、多様なエージェント間で検証済みの学習データを共有可能にすることで、構造や能力が異なるモデル同士でも集団的に成長できる環境を実現している。
この協調体制を管理するために、チームは「HACPO」と呼ばれる独自のアルゴリズムを提案した。これは、あるモデルに有用なデータが、処理方法の違いにより別のモデルでは混乱を招く「分布シフト」という一般的な問題に対処するものだ。HACPOに組み込まれた4つの調整メカニズムにより、共有される知識の数学的整合性が保たれ、すべての参加モデルにとって有益な情報となる。この双方向的な学習スタイルは、知識が大規模モデルから小規模モデルへと一方的に流れる従来の教師・生徒型モデルからの大きな転換点と言える。
様々な推論ベンチマークを用いた実証テストにおいて、HACPOは既存手法を平均3.3%上回る性能を記録した。さらに、データ収集に必要なコスト、すなわちロールアウトコストを従来の半分に抑えることにも成功している。特筆すべきは、学習プロセスでは密接に連携する一方で、実際の運用(推論時)には各モデルが完全に独立して動作する点だ。これにより、開発者は複雑な連携デプロイを必要とせず、大規模な協調学習の恩恵をそのまま実用的なアプリケーションに活かすことができる。