VLMが建設ロボットのデータ作成を自動化
- •Bedrock RoboticsがVLMを活用し、数百万時間に及ぶ建設現場の映像アノテーションを自動化。
- •戦略的なプロンプト・エンジニアリングにより、複雑な環境下での機器識別精度を34%から70%に向上。
- •自動化パイプラインにより、油圧ショベルの映像を1時間10ドルで処理し、AI導入期間を大幅に短縮。
米国だけで約50万件の求人が未充足となるなど、建設業界は現在、深刻な労働力不足に直面している。この課題を解決するため、Bedrock Roboticsは重機の自律走行を可能にするシステムの開発を進めている。しかし、こうした「フィジカルAI」の訓練には、機械に特定の工具や作業を認識させるため、数百万時間もの映像データにラベルを貼る作業が不可欠だ。従来、この工程は手作業で行われる過酷なボトルネックとなっており、自律走行システムの規模拡大を阻む大きな要因であった。
そこで同社は、AWS Generative AI Innovation Centerと提携し、Vision-Language Models (VLMs) を用いたデータ準備の自動化に乗り出した。これらのモデルは、油圧ショベルの運転席からの視覚データと自然言語の説明を結びつける架け橋の役割を果たす。ただし、粉塵が舞い、特殊な角度から撮影される現場特有の環境では、標準的なモデルでは識別が困難だ。そこでチームは、高度なプロンプト・エンジニアリングを駆使してAIに現場特有の文脈を学習させた。その結果、AIは整地用ビームと溝掘り用バケットのような、形状の似た機器を正確に見分けられるようになったのである。
この取り組みは、産業オートメーションに劇的な変化をもたらした。具体的には、機器の識別精度が34%から70%へと跳ね上がり、処理コストも映像1時間あたりわずか10ドルに抑えられている。手動のアノテーションからVLMを活用したスケーラブルなパイプラインへと移行したことで、訓練サイクルは短縮され、自律走行機器の信頼性も向上した。労働力不足が続く中、この手法は物流や製造といった他のフィジカルAI分野においても、実世界で動く知能マシンの導入を加速させる再現可能な青写真となるだろう。