Mistral AI, 자율 에이전트로 Rails 테스트 자동화 구현
- •Mistral AI가 대규모 Rails 모놀리스의 RSpec 테스트를 자동화하기 위해 Vibe 기반의 자율 에이전트를 개발했다.
- •이 시스템은 컨텍스트 엔지니어링을 위해 AGENTS.md를 활용하며, 린팅 및 커버리지 도구를 통해 코드를 스스로 수정한다.
- •실험 결과 100%의 라인 커버리지를 달성했으며, LLM-as-a-judge 점수 기준 품질이 0.49에서 0.74로 향상되었다.
많은 기업이 기능 개발 속도를 테스트 커버리지보다 우선시하면서, 이는 결국 기술 부채와 취약한 코드베이스라는 부작용을 낳고는 한다. Mistral AI의 Proto 팀은 이러한 문제를 해결하기 위해 복잡한 Ruby on Rails 모놀리스 구조를 스스로 파악하고 탐색하는 자율 에이전트를 구축했다. Mistral AI의 오픈 소스 코딩 어시스턴트인 Vibe를 기반으로 설계된 이 에이전트는 소스 파일을 직접 읽고 인간의 개입 없이 RSpec 테스트를 생성하거나 기존 테스트를 개선한다. 특히 여러 인스턴스를 병렬로 실행할 수 있어, 개발자가 수동으로 작업할 경우 수주가 소요될 대규모 코드베이스도 단시간에 처리할 수 있다는 장점이 있다.
시스템 아키텍처는 특화된 AGENTS.md 파일과 카테고리별 스킬 파일을 통한 컨텍스트 엔지니어링에 크게 의존한다. 이러한 문서들은 에이전트에게 단계별 실행 계획과 더불어 모호한 단언문 지양과 같은 프레임워크 전용 규칙을 가이드라인으로 제공한다. 또한 단순히 겉보기에만 그럴듯한 코드가 아닌 실제로 작동하는 코드를 보장하기 위해 린팅(RuboCop) 및 코드 커버리지(SimpleCov)용 맞춤형 도구를 통합했다. 이러한 피드백 루프 덕분에 에이전트는 생성된 코드를 실행해 보고 괄호 누락과 같은 구문 오류를 스스로 찾아내어 테스트가 완벽하게 통과할 때까지 반복 수정을 진행한다.
275개의 파일로 구성된 실제 저장소에서 진행된 실험 결과, 에이전트는 100%의 라인 커버리지를 달성했을 뿐만 아니라 모든 스타일 위반 사항까지 완벽하게 제거했다. 커버리지와 같은 정량적 지표도 유의미하지만, 연구팀은 코드의 질적 표준을 더욱 정밀하게 평가하고자 LLM-as-a-judge 채점 시스템을 도입했다. 이를 통해 측정한 결과 종합적인 품질 점수가 기존 0.49에서 0.74로 대폭 상승하는 성과를 거두었다. 결과적으로 Mistral AI는 개발 과정의 번거로운 작업을 자동화함으로써 에이전틱 AI 워크플로우가 소프트웨어의 신뢰성과 유지보수성을 대규모로 향상시킬 수 있음을 입증했다.