MIT 하이브리드 AI, 로봇 계획 성공률 2배 높였다
- •MIT 연구진이 복잡한 시각적 계획 작업의 성공률을 70%까지 두 배로 높인 VLMFP 시스템을 개발했다.
- •이 프레임워크는 시각-언어 모델(VLM)과 고전적 솔버를 결합하여 이미지를 실행 가능한 프로그래밍 코드로 변환한다.
- •사전 훈련 없이도 다중 로봇 협업 및 3D 조립 시나리오에서 80%의 높은 성공률을 기록했다.
예측 불가능한 환경에서 장기적인 과업을 계획하는 일은 자율 시스템의 중대한 과제로 남아 있다. 현대의 시각-언어 모델은 이미지 속 물체를 식별하는 데는 뛰어나지만, 실제 실행에 필요한 공간 추론이나 다단계 논리 구조를 짜는 데는 한계를 보이기 때문이다. 이로 인해 로봇이 인간의 도움 없이 복잡한 환경을 탐색하거나 조립 라인에서 협업하기는 쉽지 않았다.
이에 따라 MIT 연구진은 'VLM 유도 정형 계획(VLMFP)'이라 불리는 새로운 프레임워크를 선보이며 이 격차를 좁혔다. 이 하이브리드 방식은 신뢰도를 높이기 위해 작업을 두 개의 전문 모델로 나누어 처리한다. 먼저 SimVLM이라는 소형 모델이 상황을 묘사하고 가능한 행동을 자연어로 시뮬레이션하면, 이어 더 큰 모델이 이를 PDDL이라는 표준 코딩 언어로 변환한다.
시각 데이터를 정형 프로그래밍 언어로 변환함으로써 시스템은 복잡한 논리 계산에 특화된 소프트웨어인 고전적 솔버를 활용해 최적의 경로를 설계할 수 있게 되었다. 이 방식은 다음 단계를 단순히 추측하려다 오류를 범하는 생성형 모델 특유의 '할루시네이션(환각)' 문제를 효과적으로 우회한다. 특히 이는 계산된 수치를 기반으로 경로를 산출하므로 더욱 안정적이다.
실제 테스트 결과, 이 시스템은 기존 방식의 성공률인 30%를 두 배 이상 뛰어넘는 70%의 평균 성공률을 기록하며 압도적인 성능을 증명했다. 무엇보다 이 AI는 이전에 접해본 적 없는 완전히 새로운 작업에서도 높은 수행 능력을 보여주었다. 이는 동적인 제조 환경과 실제 로봇 공학 분야에 필수적인 유연성을 갖추었음을 시사한다.