Kimi K2.5が登場:視覚特化のエージェンティックAI
2026年1月30日 (金)
- •15兆個の画像・テキストトークンで学習されたネイティブ・マルチモーダルモデル「Kimi K2.5」が公開
- •100個のサブエージェントを並列稼働させる「エージェント・スウォーム」により、実行速度を4.5倍に高速化
- •視覚的デバッグや動画からのウェブサイト自動再構築など、世界最高水準のコーディング能力を実現
Kimi K2.5は、従来の逐次処理から高性能な「エージェント・スウォーム(群知能)」アーキテクチャへと転換し、オープンソースAIの領域に大きな進歩をもたらした。
15兆トークンの膨大なデータで学習されたネイティブ・マルチモーダル設計により、視覚情報とテキストを一つのデータストリームとして処理するのが特徴だ。
この統合が、AIが自身のフロントエンド出力を視覚的に確認して修正する「視覚的デバッグ」や、動画ファイルからウェブサイト全体を直接構築するといった高度な機能を可能にした。
このブレイクスルーの核心は、PARL(Parallel-Agent Reinforcement Learning)という強化学習手法にある。
これは、中央の司令塔が複雑な課題を100個の並列可能なサブタスクに分解する技術だ。
モデルが「怠けて」効率の悪い逐次実行に戻るのを防ぐため、研究者は「クリティカル・ステップ」を指標として導入し、最速の並列ルートを選ばない場合にペナルティを与える仕組みを構築した。
この群知能により、100ページの文書作成や複雑な財務モデルの構築といった高密度のデスクワークを、数時間ではなくわずか数分で完了できるようになった。
また、Kimi K2.5はKimi Codeを通じて開発者のワークフローに深く統合されており、モデル・コンテキスト・プロトコル (MCP) を介して外部ツールやデータセットと連携する。
単にモデルのパラメータ数を増やすのではなく、多数の専門化されたサブエージェントを水平展開することで、オープンソースという誰でも利用可能な枠組みを維持しながら、主要な商用モデルに匹敵する性能を達成した。