この記事の要点は？

Code2Worldは、ピクセルではなくHTMLコードを生成することでアプリの次画面を正確に予測する。 AMAP-MLの研究チームが、AI訓練用データセット「AndroidCode」を公開し、データ不足を解消した。 80億パラメータのモデルがフロンティアモデルに匹敵する性能を示し、操作成功率を9.5%向上させた。

Code2World：コード生成でアプリの未来を予測するAI

•Code2Worldは、ピクセルではなくHTMLコードを生成することでアプリの次画面を正確に予測する。
•AMAP-MLの研究チームが、AI訓練用データセット「AndroidCode」を公開し、データ不足を解消した。
•80億パラメータのモデルがフロンティアモデルに匹敵する性能を示し、操作成功率を9.5%向上させた。

モバイルアプリを自律的に操作することは、エージェンティックAI（自律型AI）にとって極めて難易度の高いタスクだ。特に、特定のボタンを押した後に画面がどのように変化するかを予測する能力が不可欠となる。これに対し、AMAP-MLの研究チームは、将来の視覚状態を画像ではなくHTMLなどの「コード」として生成する新しい世界モデル「Code2World」を発表した。UIを構造化されたコードとして扱うことで、従来の画像ベースの予測よりも精密な制御と明瞭な理解が可能になっている。

この能力を実現するため、チームは8万組以上の高品質な「画面状態と操作」のペアを含むデータセット「AndroidCode」を構築した。生成されたコードが実際の挙動を正確に反映するよう、視覚的フィードバックを用いた最適化が行われている。このアプローチは、AI業界の大きな課題であった学習データの不足を解消し、視覚言語モデル（VLM）がモバイルインターフェースの動的な変化を深く学習するための基盤を提供した。

システムの中核には、レイアウトを模倣するSFTモデルと、レンダリング結果の正確性に基づいて報酬を与える強化学習が採用されている。実際に、この80億パラメータを持つモデルは、UI予測タスクにおいてGPT-5のようなフロンティアモデルに匹敵する実力を発揮した。さらに、補助ツールとして活用することで、AndroidWorldなどの標準ベンチマークにおいて軽量モデルのナビゲーション成功率を10%近く向上させるなど、実用面でも大きな成果を挙げている。

モバイルアプリを自律的に操作することは、エージェンティックAI（自律型AI）にとって極めて難易度の高いタスクだ。特に、特定のボタンを押した後に画面がどのように変化するかを予測する能力が不可欠となる。これに対し、AMAP-MLの研究チームは、将来の視覚状態を画像ではなくHTMLなどの「コード」として生成する新しい世界モデル「Code2World」を発表した。UIを構造化されたコードとして扱うことで、従来の画像ベースの予測よりも精密な制御と明瞭な理解が可能になっている。

この能力を実現するため、チームは8万組以上の高品質な「画面状態と操作」のペアを含むデータセット「AndroidCode」を構築した。生成されたコードが実際の挙動を正確に反映するよう、視覚的フィードバックを用いた最適化が行われている。このアプローチは、AI業界の大きな課題であった学習データの不足を解消し、視覚言語モデル（VLM）がモバイルインターフェースの動的な変化を深く学習するための基盤を提供した。

システムの中核には、レイアウトを模倣するSFTモデルと、レンダリング結果の正確性に基づいて報酬を与える強化学習が採用されている。実際に、この80億パラメータを持つモデルは、UI予測タスクにおいてGPT-5のようなフロンティアモデルに匹敵する実力を発揮した。さらに、補助ツールとして活用することで、AndroidWorldなどの標準ベンチマークにおいて軽量モデルのナビゲーション成功率を10%近く向上させるなど、実用面でも大きな成果を挙げている。

Code2World：コード生成でアプリの未来を予測するAI

タグ