アリババ、多様なUIを自動操作する「GUI-Owl-1.5」を公開
- •アリババが、デスクトップ、モバイル、Webの各インターフェースを横断して操作できるマルチプラットフォームAIエージェント「GUI-Owl-1.5」を発表した。
- •20億から2,350億パラメータまでの幅広いモデルを展開し、OSWorldやAndroidWorldなどの主要ベンチマークで歴代最高スコアを記録した。
- •新開発の強化学習アルゴリズム「MRPO」を採用し、複雑で長期的なマルチプラットフォーム・タスクにおける性能を大幅に最適化している。
アリババ(Alibaba)の通義ラボ(Tongyi Lab)は、人間のようにデジタルインターフェースを解釈し操作できる多才なエージェンティックAI(自律型AI)「GUI-Owl-1.5」を公開した。このモデルはデスクトップ、モバイル、Webブラウザといった多様なプラットフォームをサポートしているのが特徴だ。これにより、デバイス間でタスクをリアルタイムに引き継ぐ「クラウド・エッジ」連携など、シームレスな操作環境の実現が可能になった。
モデルのラインナップは、ローカル環境で動作する軽量な2B(20億)版から、圧倒的な処理能力を持つ235B(2,350億)版まで多岐にわたる。その性能は極めて高く、20以上のGUIベンチマークで首位を獲得した。特にOSWorldで56.5、AndroidWorldで71.6というスコアを達成しており、画面レイアウトの正確な把握や、複数ステップにわたるコマンド実行(グラウンディングと自動化)において飛躍的な進化を遂げている。
この高精度な操作を実現するため、研究チームはシミュレーション環境とクラウド上のサンドボックスを組み合わせた「ハイブリッド・データ・フライホイール」を開発し、高品質な学習データを生成した。さらに、MRPOと呼ばれる新しい強化学習アルゴリズムを導入している。このマルチモーダル手法は、プラットフォームの切り替え時に生じる摩擦や、長期的なタスクで一貫性を維持する難しさという課題を効果的に解決した。
アリババがこれらのモデルをオープンソース化したことで、開発者は高度なAIアシスタントを構築するための強力な基盤を手に入れた。複数のアプリをまたいだ旅行の予約管理から、複雑なソフトウェアのテクニカルサポートまで、あらゆるデジタル操作を自動化する道が大きく開かれたといえるだろう。