Mistral AI、自律型エージェントでRailsテストを自動化
- •Mistral AIがVibeを活用し、大規模なRailsモノリスのRSpecテストを自動化する自律型エージェントを開発。
- •AGENTS.mdを用いたコンテキスト・エンジニアリングと、リンターやカバレッジツールによるコードの自己修正機能を搭載。
- •実証実験では100%のラインカバー率を達成し、LLM-as-a-judgeによる評価で品質スコアが0.49から0.74へと向上。
多くの組織において、テストカバレッジよりも新機能の開発スピードが優先される傾向があり、それが技術的負債やコードの脆弱性を招いている。Mistral AIのProtoチームはこの課題に対し、複雑なRuby on Railsのモノリス構造を自律的に読み解くエージェントを開発した。同社のオープンソース・コーディングアシスタント「Vibe」を基盤とするこのエージェントは、ソースファイルを読み取って人間の介入なしにRSpecテストを生成・改善する。さらに、複数のインスタンスを並列実行することで、手動では数週間を要する大規模なコードベースにも迅速に対応できるのが強みだ。
このシステムのアーキテクチャは、専用の「AGENTS.md」ファイルやカテゴリ別のスキルファイルを活用したコンテキスト・エンジニアリングに依存している。これらのドキュメントは、エージェントに対して段階的な実行計画や、曖昧なアサーションを避けるといったフレームワーク特有のルールを提示する。また、「見た目だけ正しいコード」と「実際に動作するコード」の乖離を埋めるため、RuboCop(リンター)やSimpleCov(コードカバレッジ)といったツールを統合した。このフィードバックループにより、エージェントは生成したコードを実行し、構文エラーを修正しながら、テストが完全にパスするまで改善を繰り返すことが可能となった。
275個のファイルを含むリポジトリを用いた実地試験では、100%のラインカバー率を達成しただけでなく、スタイル違反もすべて解消された。カバレッジのような定量的指標に加え、チームは定性的な基準を評価するためにLLM-as-a-judgeによるスコアリングシステムも導入している。その結果、総合的な品質スコアは0.49から0.74へと大幅な向上を見せた。開発の煩雑な工程を自動化することで、Mistral AIはエージェンティックAI(自律型AI)のワークフローが、ソフトウェアの信頼性と保守性をいかに大規模に強化できるかを証明したのである。