ASTRA:自律型AIの学習を自動化する新技術
2026年2月2日 (月)
- •Lianjia Techが、合成データを用いてツール利用型AIを訓練する自動フレームワーク「ASTRA」を発表した。
- •ルール検証が可能な環境と行動ログを自動生成し、精密な多段階の強化学習を実現する。
- •クローズドソースの最新モデルに匹敵する性能を達成しつつ、高い推論能力を維持している。
外部ツールを使いこなし、複雑なタスクを段階的に解決する「エージェンティックAI(自律型AI)」の育成は、AI開発における大きな壁となってきた。従来の学習手法は、人間が作成したデータや検証の難しいシミュレーションに依存しており、現実世界の複雑な課題に対応するには不十分だったからだ。
この課題を解決するため、Lianjia Techの研究チームは、AIの行動履歴である「軌跡(トラジェトリ)」と、その行動が行われる環境「アリーナ」を完全に自動で生成するパイプライン「ASTRA」を開発した。ツール呼び出しのグラフ構造を活用することで、多様な学習データを生成し、複雑なソフトウェアを操作する能力を効率的にモデルへ教え込むことができる。
ASTRAの最大の特徴は、人間による推論のプロセスを、コードとして実行可能な独立した環境へと変換できる点にある。これにより、AIが下した多段階の判断が正しかったかどうかをルールに基づいて明確にフィードバックする「検証可能な強化学習」が可能になった。
その結果、タスクの達成率と対話の効率性を両立させた統合的な学習手法が確立された。教師ありファインチューニングとオンライン強化学習を組み合わせたASTRAは、複数の主要ベンチマークにおいて、トップクラスのクローズドソースモデルに匹敵する高いパフォーマンスを実証している。