StepFun、巨大モデルに匹敵する「STEP3-VL-10B」を公開
- •StepFunが、自社より20倍大規模な商用モデルに匹敵するオープンソースモデル「STEP3-VL-10B」をリリースした。
- •1.2兆トークンの統合事前学習戦略とQwen3-8Bデコーダーにより、MMBenchで92.2%という驚異的なスコアを達成している。
- •PaCoRe(並列協調推論)の導入により、複雑な視覚数学における推論時計算量の大幅なスケーリングを実現した。
StepFunは、そのサイズからは想像できないほど強力な性能を誇る、コンパクトなマルチモーダル基盤モデル「STEP3-VL-10B」を発表した。わずか100億パラメータという規模ながら、Gemini 2.5 Proのような最先端モデルや、2350億パラメータを持つQwen3-VLといった巨大な競合モデルに肩を並べる、あるいはそれを凌駕する。 この驚異的な効率性の鍵は、革新的な「統合」事前学習戦略にある。視覚を司るエンコーダーと言語を司るデコーダーを完全にアンフリーズした状態で、1.2兆トークンのデータを用いて同時に学習。これにより、視覚と言語の両コンポーネントが完璧に調和した動作を可能にしたのだ。 最大の突破口は、推論時におけるモデルの「思考プロセス」にある。StepFunが導入したPaCoRe(Parallel Coordinated Reasoning)は、モデルの推論スケーリングを実現する技術だ。最終的な回答を出す前に、さまざまな視覚的仮説を探索・統合するための「思考時間」をモデルに与えることで、複雑な課題への対応力を高めている。 この手法により、AIME2025ベンチマークで94.43%という卓越したスコアを叩き出した。膨大なパラメータ数だけが正義ではない。アーキテクチャの工夫とスケーリング戦略が、物理的な制約を打破できることを明確に示したと言えるだろう。 基本構造に加え、1,000回以上の反復による強化学習を含む、集中的なポストトレーニングも実施された。精度の向上とアライメントの調整を徹底した結果、MathVisionのような難解な視覚タスクでも75.95%の正解率を記録している。StepFunがこのモデルをオープンソースとして公開したことは、適切な推論技術さえあれば、小規模モデルでも最高峰のマルチモーダル知能を実現できるという強力な証明となった。