실용성을 극대화한 로봇 두뇌, LingBot-VLA 공개
- •LingBot-VLA가 9가지 쌍팔 로봇 구성에서 수집한 2만 시간 분량의 실제 데이터를 학습했다.
- •서로 다른 3종의 로봇 플랫폼에서 100가지 작업에 걸쳐 압도적인 성능을 입증했다.
- •새로운 코드베이스를 통해 기존 VLA 인프라 대비 최대 2.8배 빠른 학습 속도를 구현했다.
진정한 의미의 '로봇 두뇌'를 향한 여정이 실용성에 초점을 맞춘 LingBot-VLA의 등장으로 큰 진전을 이뤘다. LingBot-VLA는 주변 환경을 보는 시각 정보와 언어, 그리고 실제 물리적 행동을 연결하는 시각-언어-행동(VLA) 파운데이션 모델이다.
단순히 텍스트나 이미지를 처리하는 기존 AI와 달리, 이 모델은 환경을 인식하고 그 안에서 물리적으로 상호작용하는 능력을 갖췄다. 연구진은 9가지의 서로 다른 쌍팔(dual-arm) 로봇 환경에서 2만 시간, 즉 2년이 넘는 연속 동작에 해당하는 방대한 데이터를 학습시켰다. 이를 통해 모델은 동작을 단순히 암기하는 수준을 넘어 물리적 조작의 기저에 깔린 논리를 스스로 터득했다.
LingBot-VLA의 가장 큰 차별점은 효율성과 폭넓은 적용 가능성이다. 3가지의 각기 다른 로봇 플랫폼에서 진행된 엄격한 테스트를 통해 100가지의 다양한 과제를 수행하며, 하드웨어가 바뀌어도 기술을 발휘할 수 있는 일반화 능력을 증명해냈다.
이러한 유연성은 로봇 공학의 미래에 매우 중요한 요소다. 새로운 기계가 도입될 때마다 매번 고된 재학습 과정을 거칠 필요 없이, 하나의 AI 모델이 공장용 로봇 팔부터 가정용 비서 로봇까지 다양한 브랜드의 장치를 제어할 수 있는 가능성을 열었기 때문이다.
단순한 성능 향상을 넘어, 연구팀은 AI 개발의 고질적인 문제인 높은 비용을 해결하기 위해 인프라 최적화에도 공을 들였다. 새롭게 구축된 코드베이스는 GPU당 초당 261개의 샘플을 처리하며, 이는 기존 벤치마크 대비 3배에 가까운 처리 속도 향상을 의미한다.
개발팀은 모델과 코드, 벤치마크 데이터를 모두 오픈소스로 공개했다. 전 세계 커뮤니티가 이 표준을 함께 정교하게 다듬어감으로써, 로봇이 인간의 복잡한 지시를 매끄럽게 이해하고 실행하는 세상을 앞당기겠다는 포부다.