実用性を重視したロボット基盤モデル「LingBot-VLA」
- •9種類の双腕ロボット構成から得られた2万時間の現実世界データで学習
- •3つの異なるプラットフォーム上の100タスクで、極めて優れた性能を達成
- •既存のVLAインフラと比較して、最大2.8倍の学習高速化を実現する新コードベース
真に汎用的な「ロボットの脳」を目指す試みが、実用性を重視したVision-Language-Action(VLA)基盤モデル「LingBot-VLA」の登場によって大きな一歩を踏み出した。
テキストや画像のみを処理する従来のAIとは異なり、VLAモデルは周囲の環境を「見る」ことと、実際に物理的な「動作」を行うことのギャップを埋める役割を果たす。
研究チームは、9種類の双腕ロボットを用いた合計2万時間(連続稼働2年分以上に相当)という膨大なデータセットを用いて学習を行った。
これにより、単に動作を暗記するのではなく、物理的な操作の背後にあるロジックを学習するシステムが構築されたのだ。
LingBot-VLAの最大の特徴は、効率性と幅広い適応性にある。3つの異なるプラットフォームを用いた厳格なテストの結果、100種類もの多様なタスクをこなせる能力が証明された。
これは、ハードウェアが変更されても自身のスキルを適用できる「汎化」の能力を示している。
こうした柔軟性は、ロボット工学の未来にとって極めて重要だ。
単一のAIモデルが、新しい機械を導入するたびに再学習を繰り返すことなく、異なるブランドの産業用ロボットや家庭用アシスタントを自在に動かす未来が現実味を帯びてきた。
また、チームはAI開発の高コストな課題に対処するため、インフラの最適化にも注力した。開発されたコードベースは、GPU1枚あたり毎秒261サンプルというスループットを実現しており、従来のベンチマークと比較して約3倍の高速化を達成している。
開発者らはこのモデル、コード、そしてベンチマークデータをオープンソース化することで、世界中のコミュニティによる基準の洗練を促している。ロボットが人間の複雑な指示をシームレスに理解し、実行する社会の実現は、もうすぐそこまで来ているのかもしれない。