Arena、AIリーダーボードの全履歴データを公開
2026年4月2日 (木)
- •ArenaがAIモデルのリーダーボードに関する3年間の全履歴データをHugging Faceで公開
- •テキスト、ビジョン、ビデオなど10種類のカテゴリーにわたる、数百ものモデルのデータを網羅
- •モデル性能の推移や、オープンソース対プロプライエタリのトレンドに関する縦断研究が可能に
Arenaチームは、10種類のカテゴリーにおける3年間のAIベンチマーク履歴を網羅した包括的なデータセットを正式に公開した。Hugging Faceで公開されたこのリポジトリは、2023年5月以降に数百のモデルがどのように進化したかを詳細に示している。単なる静的なスナップショットではなく時系列データを追うことで、研究者はトップクラスのモデルスコアが3年足らずで約1,000ポイントから1,500ポイント近くまで上昇した「進歩の歩み」を客観的に分析できるようになった。
データセットは、テキスト、ビジョン、ビデオ生成といった各モダリティごとに細かく分類されており、最新のランキングと全履歴を分けて管理できる。特筆すべきは、この構造により、同一の変数が長期にわたりどう変化するかを観察する高度な縦断研究が可能になった点だ。これにより、モデルの多様性が急激に拡大した様子を可視化したり、コーディングや画像編集といった分野ごとにオープンソースと商用ライセンスの採用率を比較したりすることも可能となる。
また、単純なランキングにとどまらず、いくつかのカテゴリーではスタイル制御を施したバリアントも含まれている。これは、モデルが単に丁寧な言葉遣いや書式の美しさだけで評価されるのを防ぎ、推論の質や正確性という実質的な能力で判定することを目的としている。こうしたオープンサイエンスへの取り組みは、AI開発のトレンドを精査し、ファインチューニング基盤の成熟度を評価するための強力なツールをコミュニティ全体に提供するものである。