この記事の要点は？

TOPRewardは、モデル内部のトークン確率を利用し、ロボットのタスク進捗を高精度に推定する。 Qwen3-VLにおいて、実際の進捗と0.947という高い相関を達成し、既存手法を大幅に上回った。 FrankaやSO-100など複数のロボットを用い、130以上のタスクで汎用性を実証した。

TOPReward：モデルの確率でロボット訓練を高度化

•TOPRewardは、モデル内部のトークン確率を利用し、ロボットのタスク進捗を高精度に推定する。
•Qwen3-VLにおいて、実際の進捗と0.947という高い相関を達成し、既存手法を大幅に上回った。
•FrankaやSO-100など複数のロボットを用い、130以上のタスクで汎用性を実証した。

ロボットに複雑なタスクを学習させるには、機械がいつ適切な動作をしたかを伝える「報酬」と呼ばれる数学的な信号が不可欠だ。しかし、この報酬を手作業で設計するのは極めて困難であり、ロボットが未知の環境に遭遇すると機能しなくなることも少なくない。そこで、ジアフェイ・ドゥアン(Jiafei Duan)（アレン人工知能研究所の研究員）らを中心とする研究チームは、大規模視覚言語モデル（VLM）の内部にある「隠れた」知識を、追加の訓練なしでロボットの正確なガイダンスへと変換するシステム「TOPReward」を提案した。

既存手法の多くはAIにロボットの進捗を言葉で説明させるが、これは数値的な推論において誤差が生じやすい。対照的にTOPRewardは、AIが言葉を発する前の生の数学的スコアであるLogitsを直接分析する手法を採用している。特定のトークンの出現確率を解析することで、時間の経過とともにロボットがタスク完了にどれほど近づいているかを追跡する、滑らかなTemporal value functionを構築することに成功したのだ。

その成果は驚くべきもので、Qwen3-VLモデルにおいてタスクの実際の進捗と0.947という高い相関を記録した。これにより、洗濯物の折り畳みから物体のピックアップまで、130種類以上の現実世界のシナリオにおいて、Behavior cloningなどのタスクごとの微調整なしで成功を理解できるようになった。この進展は、巨大なAIモデルと物理ハードウェアの間のギャップを埋め、現実世界での試行錯誤を通じたロボット学習をより容易なものにしていくだろう。

ロボットに複雑なタスクを学習させるには、機械がいつ適切な動作をしたかを伝える「報酬」と呼ばれる数学的な信号が不可欠だ。しかし、この報酬を手作業で設計するのは極めて困難であり、ロボットが未知の環境に遭遇すると機能しなくなることも少なくない。そこで、ジアフェイ・ドゥアン(Jiafei Duan)（アレン人工知能研究所の研究員）らを中心とする研究チームは、大規模視覚言語モデル（VLM）の内部にある「隠れた」知識を、追加の訓練なしでロボットの正確なガイダンスへと変換するシステム「TOPReward」を提案した。

既存手法の多くはAIにロボットの進捗を言葉で説明させるが、これは数値的な推論において誤差が生じやすい。対照的にTOPRewardは、AIが言葉を発する前の生の数学的スコアであるLogitsを直接分析する手法を採用している。特定のトークンの出現確率を解析することで、時間の経過とともにロボットがタスク完了にどれほど近づいているかを追跡する、滑らかなTemporal value functionを構築することに成功したのだ。

その成果は驚くべきもので、Qwen3-VLモデルにおいてタスクの実際の進捗と0.947という高い相関を記録した。これにより、洗濯物の折り畳みから物体のピックアップまで、130種類以上の現実世界のシナリオにおいて、Behavior cloningなどのタスクごとの微調整なしで成功を理解できるようになった。この進展は、巨大なAIモデルと物理ハードウェアの間のギャップを埋め、現実世界での試行錯誤を通じたロボット学習をより容易なものにしていくだろう。

TOPReward：モデルの確率でロボット訓練を高度化

タグ