OpenSWE, 소프트웨어 엔지니어링 AI 학습을 위한 대규모 환경 공개
- •OpenSWE, 소프트웨어 엔지니어링 에이전트 학습을 위한 45,320개의 실행 가능한 Docker 환경 배포
- •147만 달러 규모의 프로젝트를 통해 SWE-bench Verified에서 66%의 최고 수준 점수 기록
- •소프트웨어 엔지니어링 특화 학습이 AI의 수학 및 과학적 추론 성능을 크게 향상시킴
코드를 직접 작성하고 테스트를 실행하며 버그를 수정하는 자율형 소프트웨어 엔지니어링 AI 에이전트를 개발하려면 방대한 데이터와 특화된 테스트 공간이 필수적이다. 하지만 기존의 학습 환경은 대부분 기업 내부에 폐쇄적으로 존재해 왔으며, OpenSWE 프로젝트는 이러한 한계를 극복하기 위해 등장했다. 연구진은 45,000개 이상의 실행 가능한 디지털 샌드박스(Docker 환경)를 배포하며 코딩 모델 학습을 위한 사상 최대 규모의 투명한 프레임워크를 구축했다. 이에 따라 AI는 자신의 코드가 실제로 작동하는지에 대해 즉각적인 피드백을 받을 수 있는 실시간 환경에서 실력을 연마할 수 있게 되었다.
이러한 인프라 구축은 147만 달러 규모의 투자가 투입된 대규모 작업이었으며, 특히 12,800개의 서로 다른 코드 저장소에 대한 테스트 스크립트와 환경 설정을 자동화하는 과정이 핵심이었다. 연구팀은 다중 에이전트 시스템을 활용해 각 저장소를 탐색하고 필요한 인프라를 구축했다. 또한 난이도를 고려한 접근 방식을 채택하여 AI가 단순히 쉬운 작업만 반복하는 것이 아니라 실제 현장의 복잡한 프로그래밍 장애물에 지속적으로 도전할 수 있도록 설계했다.
결과는 매우 인상적이었다. Qwen2.5 아키텍처를 기반으로 한 모델들은 업계 표준 코딩 벤치마크에서 최상위권 점수를 획득했다. 흥미로운 점은 이러한 성능 향상이 프로그래밍 영역에만 머물지 않았다는 사실이다. 실제로 복잡한 소프트웨어 로직을 사고하도록 학습된 AI는 어려운 수학 문제와 과학적 질문을 해결하는 능력 또한 크게 개선되었다. 이는 코딩에 요구되는 엄격한 단계별 추론 과정이 AI의 범용 지능을 강화하는 강력한 두뇌 훈련 역할을 한다는 점을 시사한다.