セールスフォース、GUI操作自動化向け「GPA」を発表
- •セールスフォースが、ローカル環境で確実な企業タスク実行を実現するGUI Process Automation (GPA) を導入
- •グラフベースのインターフェース照合技術により、VLM特有のハルシネーション(もっともらしい嘘)を排除
- •Model Context Protocolとの統合により、信頼性の高いワークフローをAIエージェントがツールとして活用可能に
企業活動の現場では、経費精算やデータベース間でのデータ転送、在庫記録の更新といった反復的な画面操作が溢れている。これらは不可欠な業務である一方、従来のスクリプトでは変更に弱く、最新のAIモデルでは予測不可能性が課題となっていた。セールスフォースは、この「信頼性のギャップ」を解消するGUI Process Automation (GPA) を発表した。
現在の自動化技術には二つの極端な手法が存在する。一つは従来のRPAであり、UIのわずかなレイアウト変更でスクリプトが破綻する脆さを抱えている。もう一つは現代の視覚言語モデルを利用する手法だが、確率論に基づいた推論を行うため、ミッションクリティカルな業務には信頼性が足りない。さらに、機密性の高いスクリーンショットを外部のクラウドに送信することはデータプライバシーの観点から懸念が残る。
セールスフォースによるGPAは、この力学を根底から覆す。リアルタイムで画面要素を推測するのではなく、人間が一度操作した記録から構造化グラフを作成する。ボタンやテキストボックスといった要素は、隣接する要素との空間的関係性に基づいて定義される。この処理はすべてユーザー環境内でローカルに完結するため、機密情報が外部に流出することはない。
GPAは実行の際、クラウドを介した重い画像認識処理を必要としない。静的な座標ではなく、幾何学的な特徴に基づいた照合を行うため、ウィンドウのサイズ変更や配置の微調整にも自動的に対応する。これにより、ビジネスの現場が求める高い確定性と堅牢性を両立している。
この技術の最も先見的な側面は、Model Context Protocolとの統合にある。GPAで記録されたワークフローは、標準化された「スキル」としてAIエージェントに提供される。高度な推論や計画を行うAIが、正確なクリック操作が必要な局面でのみGPAを呼び出すという、未来のエンタープライズAIの青写真がここにある。