TetrisBenchでLLMの戦略的計画能力を評価
- •TetrisBenchは、構造化されたゲームデータを用いてLLMの計画能力と長期最適化を評価する新指標だ。
- •モデルは直接的な駒の移動選択よりも、論理的なスコアリング関数を生成する場合に高い性能を発揮した。
- •熟練した人間は、AIが苦手とする変則的なパターンを駆使することで依然として優位性を保っている。
投資会社a16zのパートナーであるヨーコ・リー(Yoko Li)は、古典的なゲーム「テトリス」を通じて大規模言語モデル(LLM)の戦略的深度を調査する新しい評価フレームワーク「TetrisBench」を発表した。チャットや単純な論理パズルに焦点を当てた従来のテストとは異なり、このベンチマークはゲームボードを構造化データとして扱う。これにより、モデルは目先のライン消去と長期的な生存の間で、絶え間ないトレードオフの判断を迫られることになる。
初期の実験では、モデルにターンごとの移動を直接選択させると苦戦する傾向が見られた。しかし、問題をコーディングタスクとして再定義し、ボードの状態を評価するためのルールセットである「スコアリング関数」を生成させたところ、パフォーマンスは劇的に向上した。人間のような直感的な意思決定ではなく、決定論的なロジックを構築させることでAIは高い成果を上げたのである。この結果は、現在のAIがリアルタイムの空間的直感よりも、客観的な戦略定義に長けていることを示唆している。
モデルごとの行動スタイルも浮き彫りになった。Gemini 3 Proは、非常に効率的で無駄のない介入を行うアプローチによって62%という高い勝率を記録し、リーダーとしての地位を確立した。一方で、トップレベルの人間プレイヤーは「制御された混沌」を操ることで依然としてAIを上回っている。彼らはモデルの硬直した最適化ルールが想定していない、変則的なボード状態(分布外のパターン)を意図的に作り出すことで、AIを翻弄しているのだ。
この実験は、モデルの「最適化ホライゾン」すなわち遠い未来を見据えて計画を立てる能力が、測定可能な行動特性であることを示している。モデルがいつ、どのように自らの戦略を書き換えるかというプロセスを理解することは、複雑な環境下で作動する将来の自律型エージェントの信頼性を評価する上で、極めて重要な視点となるだろう。