Metaが人間のように描く新しい画像生成AIを発表
- •Metaが人間が絵を描く手順を模倣した画像生成プロセスを導入
- •計画、下書き、省察、洗練という4段階の反復プロセスを構築
- •詳細な段階的監督により、生成AIの解釈可能性と制御性を向上
従来の画像生成モデルの多くは、一つの大きな飛躍で最終的な画像を生成する「ブラックボックス」として機能してきた。視覚的には驚くべき成果を生み出す一方で、人間が創作する際に不可欠な論理的根拠が欠如しているケースが多々ある。Metaによる最新の研究「Think in Strokes, Not Pixels」は、画像を計画し、スケッチし、洗練させるという人間の制作ワークフローを模倣する反復プロセスへとパラダイムを転換させた。
本モデルは、画像を即座に生成するのではなく、テキストによる計画、視覚的な下書き、テキストによる省察、そして視覚的な洗練という4つの独立した段階を循環する。この手法は、言語と視覚が深く相互に関連する推論の軌跡として生成プロセスを扱うものだ。計画段階ではモデルがレイアウト戦略を策定し、それが初期の視覚的下書きの指針となる。
モデルはそこで終わらず、自らが生成中の作品をテキストで「批評」し、不整合やプロンプトに反する要素がないかを確認する。この内部フィードバックループが次以降の生成を調整し、最終的な出力が意味の理解と視覚的忠実度の両面で裏付けられることを保証するのだ。以前の生成システムでは、未完成の状態を評価することが難しく、中間の視覚状態が曖昧になることが課題であった。
この課題に対し、各ステップでテキストと視覚出力の双方に制約を課す「密な段階的監督」を行うことで、進化する画像は空間的かつ意味的な一貫性を維持する。これにより、不透明なワンショット生成から脱却し、創造プロセス全体が明示的で解釈可能な、監査可能なフレームワークへと変化した。
学生や研究者にとって、この移行はAIと人間の協働における重要な前進を意味する。相互に関連する段階を通じてモデルの「思考プロセス」を透明化することで、エラーの診断や結果の微調整が容易になるのだ。これは単に美的品質を最大化する段階から、人間が紙にペンを走らせるように、自ら推論し、計画し、洗練させるシステムを目指すという分野の大きな変化を象徴している。