스베르 로보틱스, 범용 로봇 제어 위한 ‘Green-VLA’ 공개
- •스베르 로보틱스 센터(Sber Robotics Center)가 다양한 형태의 로봇을 제어할 수 있는 5단계 프레임워크 'Green-VLA'를 발표했다.
- •통합 R64 액션 공간과 3,000시간 분량의 데이터를 통해 휴머노이드부터 고정형 매니퓰레이터까지 통합 제어가 가능해졌다.
- •단계별 강화 학습 정렬을 적용한 결과, 실제 양팔 청소 작업에서 기존 모델 대비 성공률이 두 배 이상 향상됐다.
어떤 로봇의 몸체든 자유자재로 제어할 수 있는 '두뇌'를 개발하는 것은 로봇 공학계의 오랜 숙원이었다. 이에 스베르 로보틱스 센터는 5단계 훈련 커리큘럼을 통해 이러한 범용성을 확보한 시각-언어-행동 (VLA) 프레임워크인 Green-VLA를 선보였다. 이 시스템은 기초 시각 파운데이션 모델에서 시작해 다중 로봇 사전 학습과 강화 학습 정렬 단계로 나아가며, 서로 다른 하드웨어 구성에서도 물리적 지능을 일반화하여 학습하는 데 성공했다.
이번 연구의 핵심 혁신은 로봇의 움직임을 위한 '공용 언어' 역할을 하는 통합 R64 액션 공간이다. 이 인터페이스를 활용하면 사용하지 않는 관절(자유도)을 마스킹하여 기술적 간섭을 방지함으로써, 단일 정책으로도 다양한 로봇에게 명령을 내릴 수 있다. 또한, 연구진은 방대한 데이터의 품질 문제를 해결하기 위해 광학 흐름 기반의 시간적 재샘플링 기술을 도입했다. 이를 통해 3,000시간 분량의 시연 데이터 속 동작 속도를 표준화함으로써 녹화 품질에 관계없이 일관된 동작을 보장했다.
Green-VLA는 에피소드 진행 예측 헤드를 통해 안전성과 정밀도에도 집중했다. 이는 작업 완료 후에도 로봇이 계속 불필요하게 움직이는 '성공 후 피젯팅(post-success fidgeting)' 현상을 방지하여, 오작동으로 인한 사고를 막아준다. 실제로 진행된 실물 양팔 청소 테스트에서 Green-VLA는 기존 모델보다 두 배 빠른 속도로 작동하면서도 성공률을 거의 두 배 가까이 끌어올리며 Embodied AI 분야의 비약적인 발전을 입증했다.