この記事の要点は？

Nebiusが、32,000件以上の実行可能なソフトウェア開発タスクを含む「SWE-rebench V2」を公開した 3,600以上のGitHubリポジトリから、20種類の言語にわたる広範なパイプラインを構築した AI判定モデルによる自動システムを導入し、実行環境の検証とデータのフィルタリングを実現した

Nebius、AIソフトウェア開発用の大規模データセットを公開

•Nebiusが、32,000件以上の実行可能なソフトウェア開発タスクを含む「SWE-rebench V2」を公開した
•3,600以上のGitHubリポジトリから、20種類の言語にわたる広範なパイプラインを構築した
•AI判定モデルによる自動システムを導入し、実行環境の検証とデータのフィルタリングを実現した

自律的なソフトウェア開発を行うAIエージェントの進化において、多様で高品質な学習データの不足が大きな障壁となっている。試行錯誤を通じてモデルが学習する強化学習は近年の成果に貢献しているが、一方で、異なるプログラミング言語間で再現可能なコーディングタスクを十分に確保することは困難であった。こうした課題を解決するため、Nebiusは「SWE-rebench V2」を発表した。これは言語に依存しない大規模なパイプラインであり、現実世界のソフトウェア開発タスクをかつてない規模で収集・検証することを可能にする。

このリリースの特筆すべき点は、その圧倒的な網羅性と自動化にある。Pythonのようなリソースの豊富な言語に限定されず、3,600以上のリポジトリにまたがる20種類の言語をカバーしているのが特徴だ。具体的には、対話型のセットアップエージェントがインストール手順を合成し、複数のAI判定モデルが信頼性の低いデータを排除することで、32,000件を超える実行可能なタスクセットが構築された。これにより、AIモデルが現実的な環境でバグ修正や機能実装を練習できる堅牢なプラットフォームが提供されることとなった。

本プロジェクトでは、中核となる実行可能セットに加え、元のプルリクエストの説明から派生した12万件もの追加タスクも提供されている。このデータには、学習モデルを混乱させる可能性のある厳しすぎるテストなど、一般的な落とし穴を特定するメタデータも含まれている。これらの成果物と実行コードをオープンソース化することで、高度なソフトウェアエージェントのトレーニングを民主化し、世界のソフトウェアエコシステム全体で汎用的な問題解決能力を向上させることを目指している。

自律的なソフトウェア開発を行うAIエージェントの進化において、多様で高品質な学習データの不足が大きな障壁となっている。試行錯誤を通じてモデルが学習する強化学習は近年の成果に貢献しているが、一方で、異なるプログラミング言語間で再現可能なコーディングタスクを十分に確保することは困難であった。こうした課題を解決するため、Nebiusは「SWE-rebench V2」を発表した。これは言語に依存しない大規模なパイプラインであり、現実世界のソフトウェア開発タスクをかつてない規模で収集・検証することを可能にする。

このリリースの特筆すべき点は、その圧倒的な網羅性と自動化にある。Pythonのようなリソースの豊富な言語に限定されず、3,600以上のリポジトリにまたがる20種類の言語をカバーしているのが特徴だ。具体的には、対話型のセットアップエージェントがインストール手順を合成し、複数のAI判定モデルが信頼性の低いデータを排除することで、32,000件を超える実行可能なタスクセットが構築された。これにより、AIモデルが現実的な環境でバグ修正や機能実装を練習できる堅牢なプラットフォームが提供されることとなった。

本プロジェクトでは、中核となる実行可能セットに加え、元のプルリクエストの説明から派生した12万件もの追加タスクも提供されている。このデータには、学習モデルを混乱させる可能性のある厳しすぎるテストなど、一般的な落とし穴を特定するメタデータも含まれている。これらの成果物と実行コードをオープンソース化することで、高度なソフトウェアエージェントのトレーニングを民主化し、世界のソフトウェアエコシステム全体で汎用的な問題解決能力を向上させることを目指している。

Nebius、AIソフトウェア開発用の大規模データセットを公開

タグ