この記事の要点は？

Q: この記事の要点は？

アリババがQwen3-Max-Thinkingをリリースし、プレビュー版から知能スコアが8ポイント向上した。 指示追従やエージェンティックなタスクで優れた性能を発揮する一方、事実の正確性では競合に後れを取る面もある。 256kのコンテキストウィンドウを備えたフラッグシップモデルで、独自の重みを採用し、段階的な利用料金を設定している。

アリババがQwen3-Max-Thinkingをリリースし、プレビュー版から知能スコアが8ポイント向上した。指示追従やエージェンティックなタスクで優れた性能を発揮する一方、事実の正確性では競合に後れを取る面もある。 256kのコンテキストウィンドウを備えたフラッグシップモデルで、独自の重みを採用し、段階的な利用料金を設定している。

アリババ、推論モデル「Qwen3-Max-Thinking」を公開

•アリババがQwen3-Max-Thinkingをリリースし、プレビュー版から知能スコアが8ポイント向上した。
•指示追従やエージェンティックなタスクで優れた性能を発揮する一方、事実の正確性では競合に後れを取る面もある。
•256kのコンテキストウィンドウを備えたフラッグシップモデルで、独自の重みを採用し、段階的な利用料金を設定している。

•アリババがQwen3-Max-Thinkingをリリースし、プレビュー版から知能スコアが8ポイント向上した。
•指示追従やエージェンティックなタスクで優れた性能を発揮する一方、事実の正確性では競合に後れを取る面もある。
•256kのコンテキストウィンドウを備えたフラッグシップモデルで、独自の重みを採用し、段階的な利用料金を設定している。

アリババは、同社のフラッグシップ推論モデルの重要な進化形となる「Qwen3-Max-Thinking」を正式に発表した。

これは中国のAI開発における競争の新たな章を告げるものだ。

プレビュー版と比較して知能の大幅な飛躍が見られる一方で、独立したベンチマーク評価では中位に位置している。

MiniMax-M2.1には匹敵するものの、Kimi K2.5やDeepSeek V3.2といったリーダー格のモデルには依然として及ばないのが現状だ。
今回のリリースは、単に次の単語を予測するのではなく、複雑な論理を処理するために設計された「思考型」モデルの急速な進化を浮き彫りにしている。

最も顕著な成果は、一般的な推論能力と、ユーザーの複雑な制約に従う指示追従の向上に見られる。

AIの推論限界をテストするために設計されたベンチマーク「Humanity’s Last Exam (HLE)」において、スコアをほぼ倍増させた。
さらに、データ分析や資料作成といったタスクを自律的にこなすエージェンティックAI（自律型AI）としてのパフォーマンスも改善されている。

しかし、「Max Thinking」という名称にはトレードオフも存在する。

このモデルはプロプライエタリ（非公開）であり、アリババはモデルの重みを公開していない。
また、論理性は鋭くなったものの、事実の正確性とハルシネーションの抑制とのバランスに苦慮している面もある。
256kのコンテキストウィンドウを備え、高度なテキストベースの推論を行う実力派として位置づけられているが、世界ランキングで首位を奪うには、まだ克服すべき課題が残っている。