この記事の要点は？

BeingBeyondが、多様なロボット形態に対応するVLA基盤モデル「Being-H0.5」を発表 30種のロボット形態と3.5万時間以上のデータを網羅した「UniHand-2.0」データセットを構築ベンチマークのLIBEROで98.9%、RoboCasaで53.9%の過去最高スコアを記録

形態を超えた汎用ロボット学習「Being-H0.5」が誕生

•BeingBeyondが、多様なロボット形態に対応するVLA基盤モデル「Being-H0.5」を発表
•30種のロボット形態と3.5万時間以上のデータを網羅した「UniHand-2.0」データセットを構築
•ベンチマークのLIBEROで98.9%、RoboCasaで53.9%の過去最高スコアを記録

ロボット工学において長年の課題だったのが、ある機体で学んだスキルを形状や制御系の異なる機体へ転用できない「エンボディメント・ギャップ」だ。BeingBeyondの研究チームはこの難題に対し、人間の動作を普遍的な「母国語」として定義するVLAモデル「Being-H0.5」で挑んだ。人間の動きを物理的インタラクションの基準点と捉えることで、多指ハンドから産業用アームまで、多様なハードウェア間の溝を埋めることに成功している。このシステムを支えるのが、前例のない規模を誇る「UniHand-2.0」データセットである。30種類の異なるロボット形態から収集された3.5万時間以上のマルチモーダルデータが、未知のシナリオにも適応できる「汎化」能力をモデルに授けた。また、多様なデータを効率的に処理するため、チームは「Mixture-of-Transformers」アーキテクチャを導入。新たにMixture-of-Flow（MoF）フレームワークを用いることで、共通の運動スキルと特定の機体に特化したモジュールを切り離して学習させている。結果として、Being-H0.5はLIBEROで98.9%、RoboCasaで53.9%という驚異的な記録を樹立した。特筆すべきは「統合アクション空間」の導入により、学習データの極めて少ないロボットでも、他から知能を借用して複雑なスキルを迅速に習得（ブートストラップ）できる点だ。これは、あらゆる物理的形態を超えて知覚し行動する、真の「基盤モデル」実現に向けた重要なマイルストーンとなるだろう。

形態を超えた汎用ロボット学習「Being-H0.5」が誕生

タグ