この記事の要点は？

FASTERフレームワークは、Horizon-Aware Samplingを通じてVLA（Vision-Language-Action）モデルの反応遅延を劇的に削減する。従来のフローベースモデルと比較して、即時反応時間を10倍高速化することに成功した。ロボット卓球のような動的なタスクにおいて、実世界での極めて高い応答性を実証した。

FASTER：ロボットの反応速度を10倍にする新技術

•FASTERフレームワークは、Horizon-Aware Samplingを通じてVLA（Vision-Language-Action）モデルの反応遅延を劇的に削減する。
•従来のフローベースモデルと比較して、即時反応時間を10倍高速化することに成功した。
•ロボット卓球のような動的なタスクにおいて、実世界での極めて高い応答性を実証した。

AIモデルを現実の物理世界に展開するには、ロボットが環境の変化に対してほぼ瞬時に反応しなければならない。現在のVLA（Vision-Language-Action）モデルは、視覚情報と言語指示を物理的な動作に変換し、滑らかな軌跡を生成できる。しかし、その多くは深刻な反応遅延という課題を抱えていた。この遅延は、システムが最初の動作を開始する前に一連の動きの全シーケンスを計算し終えるのを待つために発生する。このボトルネックこそが、AIにとってスポーツのような高速タスクへの対応を困難にしていた主要因である。

香港大学の研究チームは、このギャップを埋めるために「FASTER（Fast Action Sampling for ImmediaTE Reaction）」を開発した。チームは、モデルが一連の動作をグループ化する手法であるアクションチャンキングを再考し、「Horizon-Aware Schedule」を導入した。これは計画された動作シーケンスのすべてのステップを均等に扱うのではなく、最初の動作を最優先する仕組みだ。ノイズからデータを精製するデノイジングのプロセスを一段階に圧縮することで、先行する主要モデルよりも10倍速い動作開始を可能にした。

特筆すべきは、この高速化がロボットの動作全体の質を損なわない点である。AIの処理ユニットとロボットのハードウェア間でストリーミング接続を維持することで、消費者向けグレードのハードウェア上でも滑らかな実行を保証した。実際のデモンストレーションにおいて、FASTERフレームワークを搭載したロボットは卓球の予測不能な動きにも対応できることを証明した。これは、汎用AIポリシーが物理世界で求められる瞬時の判断と行動についに適合し始めたことを示唆している。

AIモデルを現実の物理世界に展開するには、ロボットが環境の変化に対してほぼ瞬時に反応しなければならない。現在のVLA（Vision-Language-Action）モデルは、視覚情報と言語指示を物理的な動作に変換し、滑らかな軌跡を生成できる。しかし、その多くは深刻な反応遅延という課題を抱えていた。この遅延は、システムが最初の動作を開始する前に一連の動きの全シーケンスを計算し終えるのを待つために発生する。このボトルネックこそが、AIにとってスポーツのような高速タスクへの対応を困難にしていた主要因である。

香港大学の研究チームは、このギャップを埋めるために「FASTER（Fast Action Sampling for ImmediaTE Reaction）」を開発した。チームは、モデルが一連の動作をグループ化する手法であるアクションチャンキングを再考し、「Horizon-Aware Schedule」を導入した。これは計画された動作シーケンスのすべてのステップを均等に扱うのではなく、最初の動作を最優先する仕組みだ。ノイズからデータを精製するデノイジングのプロセスを一段階に圧縮することで、先行する主要モデルよりも10倍速い動作開始を可能にした。

特筆すべきは、この高速化がロボットの動作全体の質を損なわない点である。AIの処理ユニットとロボットのハードウェア間でストリーミング接続を維持することで、消費者向けグレードのハードウェア上でも滑らかな実行を保証した。実際のデモンストレーションにおいて、FASTERフレームワークを搭載したロボットは卓球の予測不能な動きにも対応できることを証明した。これは、汎用AIポリシーが物理世界で求められる瞬時の判断と行動についに適合し始めたことを示唆している。

FASTER：ロボットの反応速度を10倍にする新技術

タグ