Code2World: 픽셀 대신 코드로 앱의 다음 화면을 예측하다
- •Code2World는 픽셀 이미지를 생성하는 대신 HTML 코드를 생성하여 모바일 앱의 미래 시각 상태를 예측한다.
- •AMAP-ML 연구진은 에이전틱 AI 학습을 위해 8만 개의 고품질 화면-동작 쌍이 담긴 AndroidCode 데이터셋을 공개했다.
- •이 8B 모델은 UI 예측 작업에서 프론티어 모델에 필적하는 성능을 보이며 내비게이션 성공률을 9.5% 향상시켰다.
에이전틱 AI가 모바일 앱을 자율적으로 조작하는 것은 매우 복잡한 작업이다. 특히 특정 버튼을 클릭했을 때 화면이 어떻게 변할지 미리 예측하는 능력이 필수적이다. 이에 따라 AMAP-ML 연구팀은 픽셀 이미지를 생성하는 대신 HTML과 같은 렌더링 가능한 코드를 생성해 다음 화면의 시각적 상태를 예측하는 새로운 월드 모델인 Code2World를 선보였다. 사용자 인터페이스(UI)를 구조화된 코드로 처리함으로써 기존의 이미지 기반 예측보다 정밀한 제어와 시각적 명확성을 확보했으며, 결과적으로 디지털 환경에 대한 더 깊은 이해가 가능해졌다.
연구팀은 이러한 역량을 구축하기 위해 8만 개 이상의 고품질 화면 상태 및 동작 쌍이 포함된 AndroidCode 데이터셋을 개발했다. 특히 시각적 피드백 메커니즘을 활용해 생성된 코드가 실제 앱의 동작을 정확히 반영하도록 데이터를 정제했다. 이러한 접근 방식은 업계의 주요 난제인 데이터 부족 문제를 해결하는 동시에, 시각 언어 모델(VLM)이 상호작용 중 모바일 인터페이스가 어떻게 진화하는지 학습할 수 있는 풍부한 코퍼스를 제공한다.
기술적 핵심은 기본 레이아웃 구성을 위한 SFT 모델에서 시작해, 렌더링된 결과물의 시각적 정확도에 따라 AI에 보상을 주는 강화 학습을 적용한 데 있다. 이렇게 학습된 80억(8B) 매개변수 모델은 UI 예측 작업에서 GPT-5와 같은 프론티어 모델과 대등한 성능을 보여주었다. 무엇보다 이 모델은 강력한 보조 도구 역할을 수행하며, AndroidWorld와 같은 표준 벤치마크에서 작고 효율적인 모델들의 탐색 성공률을 10% 가까이 끌어올리는 성과를 거두었다.