学術チーム、検索AI「OpenSeeker」をオープンソース公開
2026年3月17日 (火)
- •OpenSeekerは、わずか1.17万件の合成トレーニングデータのみで最高水準(SOTA)の検索性能を達成した。
- •学術研究チームが高品質なデータを完全にオープンソース化し、巨大IT企業によるデータの独占状態に挑戦している。
- •単純な教師あり微調整のみで、主要ベンチマークにおいてAlibabaの「通義千問(Tongyi)DeepResearch」を上回る結果を記録した。
OpenSeekerは、高性能な検索エージェントの構築に膨大な企業リソースや数百万件のデータは不要であることを証明し、AI界に大きな転換点をもたらした。学術チームが開発したこのプロジェクトは、最先端の検索技術を巨大IT企業の閉鎖的な環境に留めていた「データの堀(data moat)」という課題に正面から向き合っている。モデル本体だけでなく、詳細なトレーニング手法も公開することで、研究チームは世界のAIコミュニティにおける競争条件の平準化を目指している。
プロジェクトの成功の鍵は、ウェブグラフの逆行分析による複雑なタスク生成と、ノイズの多いインターネットデータから効率的に学習するデノイジング機構という2つの技術的突破口にある。特に「エンティティ難読化」と呼ばれる手法を用いることで、エージェントに段階的な情報の連結を強いる複雑なクエリ、すなわちマルチホップ推論を生成することに成功した。これにより、産業界のラボに見られるような大規模なインフラを必要とせずに、高度な情報検索能力をモデルに習得させている。
驚くべきことに、OpenSeekerは業界大手が採用する高コストな強化学習や継続的な事前学習プロセスを経ず、一度の教師あり微調整(SFT)のみで高い成果を上げた。この卓越した効率性により、完全な透明性を維持しながらも、中国語ベンチマークにおいてAlibabaの「通義千問 DeepResearch」を凌駕したのである。本プロジェクトは、企業規模のインフラを持たない広範な研究コミュニティに対し、イノベーションを加速させるための高品質な基盤を提供している。