이 기사의 핵심 내용은?

TOPReward는 모델 내부의 토큰 확률을 활용해 로봇의 작업 진행도를 정밀하게 추정한다. Qwen3-VL 모델에서 0.947의 높은 상관관계를 기록하며 기존의 보상 모델 성능을 압도했다. Franka 및 SO-100 등 다양한 로봇 플랫폼과 130개 이상의 작업에서 즉각적인 범용성을 입증했다.

TOPReward, 모델 확률값으로 로봇 학습의 효율을 높이다

•TOPReward는 모델 내부의 토큰 확률을 활용해 로봇의 작업 진행도를 정밀하게 추정한다.
•Qwen3-VL 모델에서 0.947의 높은 상관관계를 기록하며 기존의 보상 모델 성능을 압도했다.
•Franka 및 SO-100 등 다양한 로봇 플랫폼과 130개 이상의 작업에서 즉각적인 범용성을 입증했다.

로봇에게 복잡한 동작을 가르치기 위해서는 기계가 올바른 방향으로 움직이고 있음을 알리는 수학적 신호인 '보상(Reward)'이 필수적이다. 하지만 이러한 보상 체계를 수동으로 설계하는 일은 매우 까다롭고, 로봇이 낯선 환경에 놓일 경우 제대로 작동하지 않는 경우가 많다. 이에 앨런 인공지능 연구소(Allen Institute for AI)의 연구진은 거대 시각-언어 모델(VLM)이 내부에 보유한 방대한 지식을 추가 학습 없이 로봇 제어에 활용하는 TOPReward 시스템을 선보였다.

기존의 많은 방식은 AI에게 로봇의 상태를 언어로 설명하도록 시켰으나, 이는 숫자를 다루는 추론 과정에서 잦은 오류를 낳았다. 반면 TOPReward는 모델이 최종 답변을 내놓기 전 단계인 'Logits', 즉 각 단어 후보에 부여하는 원시 수학 점수를 직접 분석한다. 특히 특정 토큰이 나타날 확률을 계산함으로써 시간이 흐름에 따라 로봇이 목표 달성에 얼마나 가까워졌는지를 나타내는 'Temporal value function'을 정교하게 생성해 낸다.

실제 실험 결과, Qwen3-VL 모델 기반의 TOPReward는 실제 작업 진행 상황과 0.947이라는 매우 높은 상관관계를 나타냈다. 덕분에 로봇은 빨래 걷기부터 물체 집기까지 130여 가지의 실생활 작업에서 별도의 미세 조정 없이도 성공 여부를 파악할 수 있게 되었다. 이번 성과는 거대 AI 모델과 물리적 하드웨어 사이의 가교를 단순화하여, 로봇이 현실 세계에서 시행착오를 통해 스스로 학습할 수 있는 환경을 구축했다는 점에서 큰 의미를 지닌다.

로봇에게 복잡한 동작을 가르치기 위해서는 기계가 올바른 방향으로 움직이고 있음을 알리는 수학적 신호인 '보상(Reward)'이 필수적이다. 하지만 이러한 보상 체계를 수동으로 설계하는 일은 매우 까다롭고, 로봇이 낯선 환경에 놓일 경우 제대로 작동하지 않는 경우가 많다. 이에 앨런 인공지능 연구소(Allen Institute for AI)의 연구진은 거대 시각-언어 모델(VLM)이 내부에 보유한 방대한 지식을 추가 학습 없이 로봇 제어에 활용하는 TOPReward 시스템을 선보였다.

기존의 많은 방식은 AI에게 로봇의 상태를 언어로 설명하도록 시켰으나, 이는 숫자를 다루는 추론 과정에서 잦은 오류를 낳았다. 반면 TOPReward는 모델이 최종 답변을 내놓기 전 단계인 'Logits', 즉 각 단어 후보에 부여하는 원시 수학 점수를 직접 분석한다. 특히 특정 토큰이 나타날 확률을 계산함으로써 시간이 흐름에 따라 로봇이 목표 달성에 얼마나 가까워졌는지를 나타내는 'Temporal value function'을 정교하게 생성해 낸다.

실제 실험 결과, Qwen3-VL 모델 기반의 TOPReward는 실제 작업 진행 상황과 0.947이라는 매우 높은 상관관계를 나타냈다. 덕분에 로봇은 빨래 걷기부터 물체 집기까지 130여 가지의 실생활 작업에서 별도의 미세 조정 없이도 성공 여부를 파악할 수 있게 되었다. 이번 성과는 거대 AI 모델과 물리적 하드웨어 사이의 가교를 단순화하여, 로봇이 현실 세계에서 시행착오를 통해 스스로 학습할 수 있는 환경을 구축했다는 점에서 큰 의미를 지닌다.

TOPReward, 모델 확률값으로 로봇 학습의 효율을 높이다

태그