ASTRA: 스스로 학습하는 에이전틱 AI 프레임워크의 탄생
2026년 2월 2일 (월)
- •Lianjia Tech가 합성 데이터를 활용해 도구 사용 능력을 갖춘 AI 에이전트를 훈련하는 자동화 프레임워크 'ASTRA'를 선보였다.
- •이 시스템은 규칙 검증이 가능한 환경과 궤적을 생성하여 정밀한 다회차 강화 학습을 지원한다.
- •ASTRA로 훈련된 모델은 핵심 추론 능력을 유지하면서도 주요 벤치마크에서 폐쇄형 모델에 필적하는 성능을 기록했다.
외부 도구를 사용해 복잡한 문제를 해결하는 신뢰할 수 있는 에이전트, 즉 에이전틱 AI를 구현하는 것은 AI 개발 분야의 오랜 난제 중 하나였다. 기존의 방식들은 사람이 직접 정제한 데이터나 검증하기 어려운 시뮬레이션에 과도하게 의존해 왔으며, 이는 실제 환경의 복잡한 작업을 수행하는 데 필요한 정교함이 부족하다는 한계로 이어졌다.
이에 따라 연구진은 AI의 행동 시퀀스인 '궤적'과 해당 행동이 발생하는 환경인 '아레나'를 완전히 자동화된 방식으로 합성하는 ASTRA 파이프라인을 개발했다. 특히 도구 호출 그래프를 활용해 방대한 학습 데이터를 생성함으로써, 모델이 복잡한 소프트웨어 도구들을 자유자재로 다루는 방법을 스스로 학습할 수 있는 토대를 마련했다.
무엇보다 ASTRA의 가장 큰 특징은 인간의 추론 과정을 코드로 실행 가능한 독립적인 환경으로 변환하는 능력에 있다. 이러한 접근 방식은 모델이 내린 다단계 의사결정의 정답 여부를 규칙 기반으로 명확하게 피드백하는 '검증 가능한 강화 학습'을 가능하게 했다.
결과적으로 ASTRA는 작업 완수 성능과 상호작용의 효율성을 동시에 잡은 통합 학습 방법론을 제시했다. 실제로 지도 학습 방식의 미세 조정과 온라인 강화 학습을 결합한 ASTRA 모델은 다수의 산업 표준 벤치마크 테스트에서 최정상급 폐쇄형 모델들에 육박하는 뛰어난 성적을 거두었다.