NVIDIA、画像不要のAI学習法「MM-Zero」を発表
2026年3月11日 (水)
- •NVIDIAの研究者が、視覚データなしで視覚言語モデルを自己進化させる「MM-Zero」を開発した。
- •生成、レンダリング、視覚推論を担う3つの専門的役割を組み合わせたフレームワークを採用している。
- •GRPOを用いることで、人間が用意した画像やラベルに頼ることなくモデルの性能向上を実現した。
従来の視覚言語モデルの学習には、膨大な画像とそれに対応する説明文のデータセットが不可欠であった。しかし、NVIDIAの研究チームが公開した「MM-Zero」は、既存の視覚データに一切頼らず、ゼロからモデルを「自己進化」させる画期的なフレームワークである。これにより、データ収集の制約を受けない新しい学習のあり方が提示された。
システムの内部では、巧妙なマルチロール構成が機能している。まず「Proposer(提案者)」が抽象的な概念を考案し、続く「Coder(コーダー)」がそのアイデアをPythonやSVGなどのコードに変換して画像をレンダリングする。そして「Solver(解決者)」が、生成された画像に対して推論を試みる仕組みだ。いわばAIが自ら「心の目」でイメージを作り出し、独り言を通じて知能を自律的に高めていくプロセスといえる。
このアプローチを支えるのが、実行の成功度や視覚的な正確さに応じてモデルを最適化するGRPOという手法である。従来の学習法では少なくとも数枚の「シード画像」を必要としていたが、MM-Zeroは真に自律的な機械学習への大きな一歩を標榜している。人間がキュレーションしたデータというボトルネックを解消することで、将来のAIシステムがマルチモーダル能力を無限に拡張できるスケーラブルな道を切り拓いた。