美団、ネイティブマルチモーダルモデル「LongCat-Next」を発表
- •美団が、純粋な離散型自己回帰アーキテクチャを採用したネイティブマルチモーダルモデル「LongCat-Next」を発表した。
- •DiNAフレームワークにより、テキスト、画像、音声を共通の離散トークン空間へと統合することに成功した。
- •LongCat-Nextは、視覚的な理解と画像生成タスクの間に存在する性能差を解消し、両立を実現した。
美団のLongCatチームの研究者らは、AIシステムが異なる種類のデータを処理する標準的な手法に一石を投じる基盤モデル「LongCat-Next」を発表した。従来のモデルは言語中心の設計が主流であり、画像や音声はテキストベースのコアに付随する「二次的な付属品」として扱われることが多かった。しかし、LongCat-NextはDiNA(Discrete Native Autoregressive)フレームワークを採用することで、このパラダイムを根本から転換させたのである。このアプローチでは、単語、ピクセル、音波など、あらゆるモダリティを単一の共有数学空間内の離散トークンとして扱う。その結果、モデルはすべての入力を等しく処理する、真の意味で「ネイティブ」なマルチモーダル性を実現した。
この画期的な進歩を支えているのが、dNaViT(Discrete Native Any-resolution Visual Transformer)と呼ばれる新しいコンポーネントである。これにより、画像の解像度に依存せず視覚信号を階層的なトークンへと分解することが可能となり、視覚的な「理解(見る)」と「生成(描く)」の間の溝を効果的に埋めることに成功した。従来、これら両方のタスクで同時に秀でることは困難であったが、LongCat-Nextは幅広いベンチマークにおいて高い性能を維持している。これは、人間が五感を統合するように世界をより包括的に知覚する人工知能に向けた、大きな一歩と言えるだろう。
さらに、AIコミュニティへの貢献として、美団は本モデルと専用のトークナイザをオープンソースとして公開した。この動きにより、開発者や研究者は、モダリティ固有のその場しのぎの修正や複雑な継ぎ接ぎを必要としない、真に統合されたアーキテクチャを探求できるようになる。マルチモーダルシステムの構造的な複雑さを簡素化することで、LongCat-Nextは、単一の洗練された枠組みの中で「話し、聞き、視覚化する」ことができる、より効率的で有能なAIエージェントの開発への道を切り拓いたのである。