この記事の要点は？

5,610億パラメータのMoEモデル「LongCat-Flash-Prover」が、オープンウェイトの形式的数学推論において新記録を樹立した。エージェント型のツール統合型強化学習とLean4を活用し、MiniF2F-Testで97.1%という驚異的な正答率を達成。新開発のHisPOアルゴリズムにより、複雑で長期的な定理証明タスクにおける学習の安定化を実現した。

MoEモデル「LongCat」、数学的推論で圧倒

•5,610億パラメータのMoEモデル「LongCat-Flash-Prover」が、オープンウェイトの形式的数学推論において新記録を樹立した。
•エージェント型のツール統合型強化学習とLean4を活用し、MiniF2F-Testで97.1%という驚異的な正答率を達成。
•新開発のHisPOアルゴリズムにより、複雑で長期的な定理証明タスクにおける学習の安定化を実現した。

•5,610億パラメータのMoEモデル「LongCat-Flash-Prover」が、オープンウェイトの形式的数学推論において新記録を樹立した。
•エージェント型のツール統合型強化学習とLean4を活用し、MiniF2F-Testで97.1%という驚異的な正答率を達成。
•新開発のHisPOアルゴリズムにより、複雑で長期的な定理証明タスクにおける学習の安定化を実現した。

研究者チームは、プログラミング言語「Lean4」を用いて数学的証明を習得するために設計された、5,610億パラメータという巨大なモデル「LongCat-Flash-Prover」を発表した。単に次の単語を予測する標準的なAIとは異なり、このモデルは「エージェント型」のアプローチを採用している。つまり、ツールを能動的に使用し、定理証明ソフトウェアと対話することで、自身の論理をステップバイステップで検証できるのだ。この画期的な成果は、AIのスケーリングにおいて重要なのは単なるサイズではなく、モデルがいかに構造化されたルールと対話するかであることを示している。

このシステムは、定理証明という複雑なタスクを、自然言語から数学コードへの翻訳、大まかなアウトラインの作成、そして厳密な証明の完成という3つの段階に分解して処理する。このような巨大モデルを効果的に学習させるため、チームは「階層的重要サンプリング方策最適化（HisPO）」アルゴリズムを開発した。この手法は学習中の安定性を確保し、AIが実際に問題を解くのではなく、報酬を「ハック」して近道を見つけてしまうという、強化学習にありがちな問題を防止する。

その結果は非常に衝撃的であり、ベンチマークであるMiniF2F-Testにおいて97.1%の成功率を記録した。これはオープンウェイトの技術としては極めて大きな飛躍である。特に、難関として知られるPutnamBenchの問題を41.5%解決したことで、LongCat-Flash-ProverはAIが人間の数学的推論との差を急速に縮めていることを証明した。このリリースは、形式検証の最も退屈な部分を自動化しようとする学生や研究者にとって、強力な新しいツールキットとなるだろう。

研究者チームは、プログラミング言語「Lean4」を用いて数学的証明を習得するために設計された、5,610億パラメータという巨大なモデル「LongCat-Flash-Prover」を発表した。単に次の単語を予測する標準的なAIとは異なり、このモデルは「エージェント型」のアプローチを採用している。つまり、ツールを能動的に使用し、定理証明ソフトウェアと対話することで、自身の論理をステップバイステップで検証できるのだ。この画期的な成果は、AIのスケーリングにおいて重要なのは単なるサイズではなく、モデルがいかに構造化されたルールと対話するかであることを示している。

このシステムは、定理証明という複雑なタスクを、自然言語から数学コードへの翻訳、大まかなアウトラインの作成、そして厳密な証明の完成という3つの段階に分解して処理する。このような巨大モデルを効果的に学習させるため、チームは「階層的重要サンプリング方策最適化（HisPO）」アルゴリズムを開発した。この手法は学習中の安定性を確保し、AIが実際に問題を解くのではなく、報酬を「ハック」して近道を見つけてしまうという、強化学習にありがちな問題を防止する。

その結果は非常に衝撃的であり、ベンチマークであるMiniF2F-Testにおいて97.1%の成功率を記録した。これはオープンウェイトの技術としては極めて大きな飛躍である。特に、難関として知られるPutnamBenchの問題を41.5%解決したことで、LongCat-Flash-ProverはAIが人間の数学的推論との差を急速に縮めていることを証明した。このリリースは、形式検証の最も退屈な部分を自動化しようとする学生や研究者にとって、強力な新しいツールキットとなるだろう。

MoEモデル「LongCat」、数学的推論で圧倒

タグ