テンセント、小型・高効率な視覚言語モデルを発表
2026年3月9日 (月)
- •テンセントのPenguin-VLは、モバイル機器での効率を最大化するため、テキスト専用モデルを視覚エンコーダとして活用している。
- •微細な視覚的・時間的詳細を保持する新アーキテクチャにより、従来の対照学習ベースのモデルを凌駕する性能を実現した。
- •2Bおよび8Bの小型モデルでありながら、数学や文書理解のタスクで大規模な競合モデルに匹敵する成果を出している。
現代の視覚言語モデルは通常、対照学習によって訓練された巨大な視覚エンコーダに依存している。この手法はAIが物体をカテゴリーごとに識別するのには役立つが、複雑な推論に不可欠な微細な詳細を無視してしまうことが少なくない。これに対し、テンセントの研究チームはPenguin-VLによってこの現状に挑戦した。標準的なエンコーダを用いる代わりに、テキスト専用の大規模言語モデルをシステムの「目」として再利用するという手法を採ったのである。この巧妙な転換により、従来の手法ではノイズとして捨てられていた高精度な視覚情報を余さず捉えることが可能になった。
この成果は、処理能力に制約のあるエッジコンピューティングの分野において特に大きな意味を持つ。単にモデルの規模を拡大するのではなく、視覚的表現の質を高めることに注力した結果、Penguin-VLはわずか2Bまたは8Bのパラメータ数で、数学的推論や文書理解において高いパフォーマンスを実現した。これにより、スマートフォンやロボットが膨大な電力を消費する巨大なサーバー群に頼ることなく、高度なマルチモーダルタスクを処理できる道が拓かれた。
Penguin-VLの特筆すべき点は、物体の位置関係や時間的な動き、すなわち空間的・時間的な手がかりを保持する能力だ。ビデオベンチマークでは複数の主要モデルを凌駕し、テキストベースの初期設定がAIの「視力」をより鮮明にできることを証明した。この研究はデータ効率の高いAIへの重要なシフトを象徴しており、次世代のスマートアシスタントが、我々の想像以上に小型かつ高性能なものになる未来を予見させている。