AIが統計言語「R」を完全攻略:データ分布を活用した新手法
2026年3月6日 (金)
- •DAREモデルがデータ分布を特徴量として組み込み、Rパッケージの検索精度を大幅に改善
- •CRANの8,191個のパッケージを網羅した知識ベース「RPKB」を新たに構築
- •RCodingAgentが統計解析とコード生成において、既存モデルを17%上回る性能を達成
データサイエンスの現場では、厳密な統計手法を扱うためにプログラミング言語「R」が広く利用されている。しかし、AIエージェントにとってその広大なエコシステムを使いこなすことは容易ではない。従来の検索手法は関数のテキストによる説明のみに依存しており、扱うデータそのものが持つ重要な文脈を見落としがちであった。
香港理工大学(The Hong Kong Polytechnic University)の研究チームは、この課題を解決するために「DARE(Distribution-Aware Retrieval Embedding)」という軽量モデルを開発した。DAREは関数のメタデータと特定のデータ分布特性を融合させることで、AIが目の前のデータセットに最も適した統計ツールを選択できるようにする。このデータ分布を考慮したアプローチにより、システムは単に関数の機能を理解するだけでなく、それがどのようなデータ特性に最適であるかまで判断可能となった。
また、本プロジェクトではCRANから収集した8,191件の高品質なパッケージドキュメントを含む知識ベース「RPKB」も公開された。これを新たなフレームワーク「RCodingAgent」に統合したところ、適切なツールを特定する精度は93.47%に達し、既存の汎用モデルを大幅に上回った。この進展は、専門性の高い学術的・実務的な統計タスクを、AIが極めて高い信頼性で遂行できる未来を示唆している。