この記事の要点は？

ServiceNowが、デスクトップ自動化エージェント学習用の55時間に及ぶエキスパート操作動画データセット「CUA-Suite」を発表した。「VideoCUA」は、87種類のアプリケーションにおける1万件のタスクを、30fpsの連続画面録画とカーソル追跡データと共に収録している。初期ベンチマークの結果、既存のAIモデルはデスクトップタスクに苦戦しており、失敗率は60%に達することが明らかになった。

ServiceNow、PC操作AI向けの巨大動画データセットを公開

•ServiceNowが、デスクトップ自動化エージェント学習用の55時間に及ぶエキスパート操作動画データセット「CUA-Suite」を発表した。
•「VideoCUA」は、87種類のアプリケーションにおける1万件のタスクを、30fpsの連続画面録画とカーソル追跡データと共に収録している。
•初期ベンチマークの結果、既存のAIモデルはデスクトップタスクに苦戦しており、失敗率は60%に達することが明らかになった。

•ServiceNowが、デスクトップ自動化エージェント学習用の55時間に及ぶエキスパート操作動画データセット「CUA-Suite」を発表した。
•「VideoCUA」は、87種類のアプリケーションにおける1万件のタスクを、30fpsの連続画面録画とカーソル追跡データと共に収録している。
•初期ベンチマークの結果、既存のAIモデルはデスクトップタスクに苦戦しており、失敗率は60%に達することが明らかになった。

人間のようにコンピュータ画面を操作するAIの学習は、長らく高品質なデータの不足に阻まれてきた。既存のデータセットの多くは静止画のスクリーンショットに依存しており、カーソルの滑らかな動きやメニューが開く際の繊細なアニメーションを捉えきれていなかったからだ。

この課題を解決するため、ServiceNowの研究チームは、コンピュータ操作エージェント（CUA）専用の600万フレームを超える大規模なエコシステム「CUA-Suite」を公開した。これまでの試みとは異なり、このデータセットは多様な専門ソフトウェアにおける約1万件のタスクを、30fpsの連続録画で記録している。すべての運動学的なカーソル軌跡と視覚的な遷移を記録することで、AIは単なる最終結果だけでなく、人間による操作の一時的なダイナミクスを学習することが可能になった。

さらに、複雑な環境下でのエージェントの計画・実行能力を測定するベンチマーク「UI-Vision」も提供される。初期テストの結果は業界に警鐘を鳴らすもので、高度な基盤モデルであっても、専門的なデスクトップアプリを前にすると約60%の確率で失敗した。このデータの公開により、世界モデルや汎用的な画面解析（グラウンディング）に関する研究が加速し、真に自律的なデジタルアシスタントの実現に近づくことが期待されている。

人間のようにコンピュータ画面を操作するAIの学習は、長らく高品質なデータの不足に阻まれてきた。既存のデータセットの多くは静止画のスクリーンショットに依存しており、カーソルの滑らかな動きやメニューが開く際の繊細なアニメーションを捉えきれていなかったからだ。

この課題を解決するため、ServiceNowの研究チームは、コンピュータ操作エージェント（CUA）専用の600万フレームを超える大規模なエコシステム「CUA-Suite」を公開した。これまでの試みとは異なり、このデータセットは多様な専門ソフトウェアにおける約1万件のタスクを、30fpsの連続録画で記録している。すべての運動学的なカーソル軌跡と視覚的な遷移を記録することで、AIは単なる最終結果だけでなく、人間による操作の一時的なダイナミクスを学習することが可能になった。

さらに、複雑な環境下でのエージェントの計画・実行能力を測定するベンチマーク「UI-Vision」も提供される。初期テストの結果は業界に警鐘を鳴らすもので、高度な基盤モデルであっても、専門的なデスクトップアプリを前にすると約60%の確率で失敗した。このデータの公開により、世界モデルや汎用的な画面解析（グラウンディング）に関する研究が加速し、真に自律的なデジタルアシスタントの実現に近づくことが期待されている。

ServiceNow、PC操作AI向けの巨大動画データセットを公開

タグ