MOOSE-Starが科学的発見の計算障壁を突破
- •MOOSE-Starにより、科学的推論の複雑性が指数関数的なO(N^k)から効率的な対数レベルのO(log N)へと大幅に低減された。
- •モデル訓練用として、108,717件の科学論文を構造化した「TOMATO-Star」データセットが公開された。
- •複雑な研究背景から仮説を生成するための、継続的なテスト時スケーリングを可能にするフレームワークが構築された。
AIによる科学的発見は長年の「聖杯」とされてきたが、独自の仮説を生成する能力をモデルに教え込むことは依然として大きな技術的障壁であった。既存のデータを検索することは現在のAIでも可能だが、異なる研究の着想を組み合わせる際の数学的な選択肢が膨大になるため、新しい科学的アイデアの創出には苦慮してきた。この「組み合わせ複雑性」という壁が、研究の背景知識と実現可能な仮説との直接的な関係をモデルが効率的に学習することを長年妨げてきた背景がある。
この課題を解決するため、研究チームは生成的な推論プロセスを管理可能なサブタスクに分解するフレームワーク「MOOSE-Star」を導入した。「Motivation-Guided Hierarchical Search(動機付けガイド付き階層的探索)」という手法を用いることで、システムは膨大な知識の中から関連するつながりを迅速に特定し、無関係なデータに埋もれることなくナビゲートできる。これにより、計算コストは指数関数的な上昇から効率的な対数スケールへと劇的に改善され、問題が複雑化するほどAIがより効果的に知識を活用できるようになった。
また、研究チームは「TOMATO-Star」データセットという膨大なリソースをコミュニティに提供した。このコレクションは、背景情報、着想、仮説の特定の組み合わせとして細分化された約10万9,000件の科学論文で構成されている。3万8,000以上のGPU時間を費やして構築されたこのデータセットは、将来のモデルが科学的推論を習得するために不可欠な基礎データとなる。さらに、R1-Distilledアーキテクチャに基づく微調整済みモデルを公開したことで、AI for Scienceコミュニティが即座に活用できる実践的なパイプラインが確立された。