Ant GroupがGUIエージェント「UI-Venus-1.5」を発表
- •Ant Groupがモバイルとウェブの自動操作を統合したGUIエージェント「UI-Venus-1.5」を公開
- •2B/8Bのデンスモデルに加え、30Bの混合専門家モデル(MoE)を含むモデル群を展開
- •モデルマージ技術の活用により、AndroidWorldなどのベンチマークで世界最高性能を記録
Ant Groupは、人間のようにデジタルインターフェースを自在に操作できる高度なエージェント型AIシステム「UI-Venus-1.5」を発表した。これまで多くのAIモデルは、テスト環境と実際の日常利用との間に生じる「リアリティ・ギャップ」の克服に苦戦してきた。しかし本システムは、グラウンディングやモバイル、ウェブといった多様なタスクを、単一のエンドツーエンド・フレームワークで処理することに成功したのである。これにより、複雑で高コストなマルチエージェント構成を必要とせず、より高速かつ信頼性の高いデジタルアシスタントが実現した。
UI-Venus-1.5の技術的基盤は、大きく3つの要素に支えられている。まず、30種類のデータセットを用いた100億トークンの「中間学習(Mid-Training)」により、アイコンの認識や画面構成の細かなニュアンスを学習させた。次に、アクションの全軌跡を反映させた強化学習(RL)を採用。これにより、複雑な操作手順を一連の流れとしてAIが自己学習することを可能にしている。最後に、モデルマージ(Model Merging)技術を活用し、ウェブやモバイルといった異なる環境向けの専門知識を、一つのモデルへと高精度に統合した。
モデルのラインナップも用途に応じて多彩だ。特定のネットワークのみを活性化させて計算効率を高める30Bの混合専門家モデル(MoE)のほか、軽量な2Bおよび8Bのデンスモデルも提供されている。性能面ではAndroidWorldやScreenSpot-Proといった主要ベンチマークで過去最高記録を塗り替えるなど、圧倒的な実力を示した。さらに、中国で普及している40以上の主要アプリを標準サポートしており、最先端の研究成果を何百万人ものユーザーの実生活へと橋渡しする実用性も備えている。