視覚情報を8トークンに凝縮する新技術
2026年3月9日 (月)
- •新技術「CompACT」により、視覚データのエンコードを数百からわずか8つのトークンに削減。
- •リアルタイムのロボット制御において、従来比で桁違いに高速なプランニングを実現。
- •計算資源を大幅に節約しつつ、高度なパフォーマンスを維持する効率的な世界モデルを構築。
潜在的世界モデルはAI内部のシミュレーターとして機能し、現在の行動に基づいた未来の予測を可能にする。これは複雑な環境を自律走行するロボットにとって極めて重要な能力である。しかし、従来のモデルは膨大なデータ表現に依存しており、一つの視覚情報を数百もの個別トークンへ変換していた。このデータの肥大化は、一刻を争うタスクにおいて長いシーケンスを処理するための莫大な計算能力を必要とし、リアルタイムの意思決定を困難にする大きな要因となっていた。
このボトルネックを解消するため、視覚データをわずか8トークンという極めてスリムな形式に圧縮する離散トークナイザー「CompACT」が開発された。状態表現に必要なトークン数を劇的に減らすことで、システムは将来のシナリオを圧倒的な速さで「思考」することが可能になった。この効率性は、ロボットが遠隔サーバーの処理を待つことなく、現場でミリ秒単位の変化に即座に反応しなければならないリアルタイム制御において決定的な意味を持つ。
今回の技術革新の核心は、ナビゲーションに不要な視覚的ノイズを削ぎ落とし、環境に関する本質的な情報のみを保持する点にある。検証の結果、CompACTを用いた世界モデルは、従来の精度を維持しながら桁違いのプランニング速度を達成した。この成果は、自律型ドローンや移動式産業ロボットなど、処理能力に限りのあるハードウェアに高度なAIを搭載するための実用的な飛躍を意味する。これにより、エッジデバイス上での高度な推論がより身近なものとなるだろう。