Google DeepMind、無限に広がる対話型世界「Project Genie」を発表
- •Google DeepMindが、テキストや画像から対話可能な世界を生成する「Project Genie」のプロトタイプを公開。
- •Genie 3とNano Banana Proを搭載し、リアルタイムの物理シミュレーションと環境の拡張を実現。
- •米国のGoogle AI Ultra加入者向けに、世界のスケッチやリミックス機能の早期アクセスを開始。
Google DeepMindが、汎用的な「世界モデル」の実現に向けた大きな一歩となる実験的プロトタイプ「Project Genie」を正式に発表した。
従来の静的な環境とは異なり、このシステムはユーザーの操作に合わせてリアルタイムで進むべき道を生成する。つまり、テキストプロンプトやアップロードされた画像一枚から、命を宿し拡張し続ける宇宙を創り出すのだ。
複雑な物理法則や環境の変化を即座にシミュレートすることで、ユーザーは飛行や運転といった多様な移動手段を使い、歴史的な再現から想像力豊かなフィクションの世界まで、あらゆる設定を自由自在に探索できる。
この体験の技術的支柱となるのが、特定の行動に基づいて環境がどのように進化するかを予測する世界モデル「Genie 3」である。
従来のAIエージェントはチェスや囲碁などの限定的な領域に留まっていたが、Genie 3は現実世界の整合性を習得することで、汎用人工知能(AGI)に求められる多才さを目指している。
また、クリエイターがより細かな制御を行えるよう、予測プレビュー層として機能するNano Banana Proを用いた「ワールドスケッチ」機能も統合された。これにより、生成エンジンによるリアルタイムシミュレーションが始まる前に、視覚的な美学を微調整し、キャラクターの視点を定義することが可能になる。
高い能力を誇るProject Genieだが、物理的な忠実度や操作のレイテンシには依然として課題が残る初期段階のプロトタイプだ。
現在は米国のGoogle AI Ultraの加入者向けに60秒間の生成に制限されているが、このプロジェクトは人間がAI生成によるダイナミックなメディアとどのように関わるかを理解するための重要なサンドボックスとして機能する。
生成メディアとロボティクスシミュレーションが世界モデルを通じて融合することは、AIが現実世界の物理的な複雑さを理解し、再構築する方法における決定的な転換点となるだろう。