この記事の要点は？

美団（Meituan）のEvoCUAがOSWorldで56.7%の成功率を達成し、オープンソースAIエージェントの最高記録を樹立した。自律的な合成データ生成と非同期のサンドボックス化により、従来のデータ拡張におけるボトルネックを解消。進化的学習戦略を採用し、高いパラメータ効率を維持しながら主要な商用モデルを上回る性能を実現した。

美団の「EvoCUA」、AIエージェントの性能で世界記録

•美団（Meituan）のEvoCUAがOSWorldで56.7%の成功率を達成し、オープンソースAIエージェントの最高記録を樹立した。
•自律的な合成データ生成と非同期のサンドボックス化により、従来のデータ拡張におけるボトルネックを解消。
•進化的学習戦略を採用し、高いパラメータ効率を維持しながら主要な商用モデルを上回る性能を実現した。

•美団（Meituan）のEvoCUAがOSWorldで56.7%の成功率を達成し、オープンソースAIエージェントの最高記録を樹立した。
•自律的な合成データ生成と非同期のサンドボックス化により、従来のデータ拡張におけるボトルネックを解消。
•進化的学習戦略を採用し、高いパラメータ効率を維持しながら主要な商用モデルを上回る性能を実現した。

人間のようにコンピュータインターフェースを操作できるエージェントの開発は、長年「データの枯渇」という壁に突き当たってきた。複雑なデジタルタスクを解決するための高品質な実例が圧倒的に不足していたからだ。美団のLongCatチームが発表した「EvoCUA」は、受動的な学習から自律的な進化サイクルへと転換することで、この停滞を打破したオープンソースAIエージェントである。

EvoCUAの中核を成すのは、多様なデジタルタスクとその検証器を自律的に作成する「検証可能合成エンジン」だ。これにより、限定的な人間によるラベル付けに頼らず、システム自らが訓練場を作り出すことが可能になった。この膨大な経験を処理するため、研究チームは数万規模のシミュレーションを同時実行できるサンドボックス化されたインフラを構築。エージェントはOSやExcel、VSCodeなどの操作を仮想環境で集中的に「練習」する。

EvoCUAを真に際立たせているのは、その反復的な進化的学習戦略である。単に成功例を模倣するのではなく、エラー分析や自己修正を通じて自らの失敗を分析する。現在の能力の限界を特定することで、失敗に終わった試行を質の高い学習データへと変貌させるのだ。このアプローチにより、EvoCUAの32BモデルはOSWorldベンチマークで56.7%の成功率を記録。主要な商用モデルを凌駕し、マルチモーダルAIにおける新たな地平を切り拓いた。

人間のようにコンピュータインターフェースを操作できるエージェントの開発は、長年「データの枯渇」という壁に突き当たってきた。複雑なデジタルタスクを解決するための高品質な実例が圧倒的に不足していたからだ。美団のLongCatチームが発表した「EvoCUA」は、受動的な学習から自律的な進化サイクルへと転換することで、この停滞を打破したオープンソースAIエージェントである。

EvoCUAの中核を成すのは、多様なデジタルタスクとその検証器を自律的に作成する「検証可能合成エンジン」だ。これにより、限定的な人間によるラベル付けに頼らず、システム自らが訓練場を作り出すことが可能になった。この膨大な経験を処理するため、研究チームは数万規模のシミュレーションを同時実行できるサンドボックス化されたインフラを構築。エージェントはOSやExcel、VSCodeなどの操作を仮想環境で集中的に「練習」する。

EvoCUAを真に際立たせているのは、その反復的な進化的学習戦略である。単に成功例を模倣するのではなく、エラー分析や自己修正を通じて自らの失敗を分析する。現在の能力の限界を特定することで、失敗に終わった試行を質の高い学習データへと変貌させるのだ。このアプローチにより、EvoCUAの32BモデルはOSWorldベンチマークで56.7%の成功率を記録。主要な商用モデルを凌駕し、マルチモーダルAIにおける新たな地平を切り拓いた。

美団の「EvoCUA」、AIエージェントの性能で世界記録

タグ