アリババ、推論モデル「Qwen3-Max-Thinking」を公開
2026年1月30日 (金)
- •アリババがQwen3-Max-Thinkingをリリースし、プレビュー版から知能スコアが8ポイント向上した。
- •指示追従やエージェンティックなタスクで優れた性能を発揮する一方、事実の正確性では競合に後れを取る面もある。
- •256kのコンテキストウィンドウを備えたフラッグシップモデルで、独自の重みを採用し、段階的な利用料金を設定している。
アリババは、同社のフラッグシップ推論モデルの重要な進化形となる「Qwen3-Max-Thinking」を正式に発表した。
これは中国のAI開発における競争の新たな章を告げるものだ。
プレビュー版と比較して知能の大幅な飛躍が見られる一方で、独立したベンチマーク評価では中位に位置している。
MiniMax-M2.1には匹敵するものの、Kimi K2.5やDeepSeek V3.2といったリーダー格のモデルには依然として及ばないのが現状だ。
今回のリリースは、単に次の単語を予測するのではなく、複雑な論理を処理するために設計された「思考型」モデルの急速な進化を浮き彫りにしている。
最も顕著な成果は、一般的な推論能力と、ユーザーの複雑な制約に従う指示追従の向上に見られる。
AIの推論限界をテストするために設計されたベンチマーク「Humanity’s Last Exam (HLE)」において、スコアをほぼ倍増させた。
さらに、データ分析や資料作成といったタスクを自律的にこなすエージェンティックAI(自律型AI)としてのパフォーマンスも改善されている。
しかし、「Max Thinking」という名称にはトレードオフも存在する。
このモデルはプロプライエタリ(非公開)であり、アリババはモデルの重みを公開していない。
また、論理性は鋭くなったものの、事実の正確性とハルシネーションの抑制とのバランスに苦慮している面もある。
256kのコンテキストウィンドウを備え、高度なテキストベースの推論を行う実力派として位置づけられているが、世界ランキングで首位を奪うには、まだ克服すべき課題が残っている。