この記事の要点は？

Mistral AIがVibeを活用し、大規模なRailsモノリスのRSpecテストを自動化する自律型エージェントを開発。 AGENTS.mdを用いたコンテキスト・エンジニアリングと、リンターやカバレッジツールによるコードの自己修正機能を搭載。実証実験では100%のラインカバー率を達成し、LLM-as-a-judgeによる評価で品質スコアが0.49から0.74へと向上。

Mistral AI、自律型エージェントでRailsテストを自動化

•Mistral AIがVibeを活用し、大規模なRailsモノリスのRSpecテストを自動化する自律型エージェントを開発。
•AGENTS.mdを用いたコンテキスト・エンジニアリングと、リンターやカバレッジツールによるコードの自己修正機能を搭載。
•実証実験では100%のラインカバー率を達成し、LLM-as-a-judgeによる評価で品質スコアが0.49から0.74へと向上。

•ウェブサイトを作るための複雑なプログラムを、AIが人間のかわりに自動でチェック（テスト）してくれるようになりました。
•AIは自分で説明書を読み、間違いを見つけたらその場で直し、100点満点になるまで何度もやり直します。
•人間が何週間もかかる大変な作業を、AIならあっという間に、しかも正確に終わらせることができました。

多くの組織において、テストカバレッジよりも新機能の開発スピードが優先される傾向があり、それが技術的負債やコードの脆弱性を招いている。Mistral AIのProtoチームはこの課題に対し、複雑なRuby on Railsのモノリス構造を自律的に読み解くエージェントを開発した。同社のオープンソース・コーディングアシスタント「Vibe」を基盤とするこのエージェントは、ソースファイルを読み取って人間の介入なしにRSpecテストを生成・改善する。さらに、複数のインスタンスを並列実行することで、手動では数週間を要する大規模なコードベースにも迅速に対応できるのが強みだ。

このシステムのアーキテクチャは、専用の「AGENTS.md」ファイルやカテゴリ別のスキルファイルを活用したコンテキスト・エンジニアリングに依存している。これらのドキュメントは、エージェントに対して段階的な実行計画や、曖昧なアサーションを避けるといったフレームワーク特有のルールを提示する。また、「見た目だけ正しいコード」と「実際に動作するコード」の乖離を埋めるため、RuboCop（リンター）やSimpleCov（コードカバレッジ）といったツールを統合した。このフィードバックループにより、エージェントは生成したコードを実行し、構文エラーを修正しながら、テストが完全にパスするまで改善を繰り返すことが可能となった。

275個のファイルを含むリポジトリを用いた実地試験では、100%のラインカバー率を達成しただけでなく、スタイル違反もすべて解消された。カバレッジのような定量的指標に加え、チームは定性的な基準を評価するためにLLM-as-a-judgeによるスコアリングシステムも導入している。その結果、総合的な品質スコアは0.49から0.74へと大幅な向上を見せた。開発の煩雑な工程を自動化することで、Mistral AIはエージェンティックAI（自律型AI）のワークフローが、ソフトウェアの信頼性と保守性をいかに大規模に強化できるかを証明したのである。

多くの会社では、新しい機能を早く作ることを優先して、プログラムが正しく動くか確かめる「点検作業（テスト）」を後回しにしてしまうことがあります。そのせいで、後からプログラムがボロボロになってしまう問題（技術的負債）が起きていました。ミストラルAIというチームは、ウェブサイトを作る道具（Ruby on Rails）で作られた巨大なプログラムを、自動で点検してくれる「自分自身で考えて動くAI（自律型エージェント）」を開発しました。このAIは「Vibe」という名前のプログラミング助手をもとにしていて、人間が命令しなくても、プログラムを読み取って間違いがないか調べるコード（RSpec）を自動で書き上げます。一度にたくさんのAIを動かせるので、人間なら何週間もかかるような大量の作業も、一瞬で終わらせることができます。

このAIの仕組みは、特別な「指示書（AGENTS.md）」や「ルールブック（スキルファイル）」を読み取ることから始まります。これには、AIが迷わないための手順や、曖昧なチェックをしないための約束事が書かれています。また、AIはただコードを書くだけではありません。書いたコードが本当に動くかを確かめるために、書き方の間違いを見つける道具（リンター／RuboCop）や、どれくらい点検できたかを測る道具（カバレッジツール／SimpleCov）を自分で使いこなします。もしカッコを付け忘れるような小さなミスがあっても、AIが自分で気づいて、完璧に動くまで何度も修正（フィードバックループ）を繰り返します。

275個ものファイルがある実際のプログラムで実験したところ、このAIはすべての行を100％完璧に点検し、書き方のルール違反も一つ残らず修正しました。また、別のAIに点数をつけてもらう仕組み（LLM-as-a-judge）で質を調べたところ、もともと49点くらいだった質が74点まで大幅にアップしました。人間にとって退屈で大変な作業をAIが肩代わりすることで、より安全で壊れにくいソフトウェアを、大きな規模で楽に作れるようになることが証明されました。

Mistral AI、自律型エージェントでRailsテストを自動化

プログラミングの間違いを自分でお直し！AIが「テスト」を自動でやってくれる時代へ

タグ