SpecEyes:AIエージェントの応答速度を3.35倍に高速化
2026年3月25日 (水)
- •SpecEyesフレームワークは、投機的プランニングを活用することでマルチモーダルAIエージェントのタスク処理を最大3.35倍に高速化する。
- •認知的ゲーティング機構により、外部のラベル付けに頼ることなく、AIエージェントが自らの確信度を自己検証できるようになった。
- •ヘテロジニアス並列ファンネルを採用し、大規模モデルの処理中に小規模モデルを並行動作させることで、全体の処理遅延を隠蔽する。
視覚データの解釈と複雑なタスク実行を両立する現代のマルチモーダルAIエージェントは、「エージェントの深度(Agentic Depth)」と呼ばれる深刻なボトルネックに直面している。これは、知覚・推論・ツール呼び出しの各ステップが完了するまで次の工程に進めない逐次的な処理構造に起因し、結果として大きな遅延と動作の鈍化を招いていた。研究チームはこの課題を解決すべく、高速な「投機的」アプローチによってこうしたループをバイパスするフレームワーク「SpecEyes」を開発した。
SpecEyesの革新性は、軽量なアシスタントモデルを用いてエージェントが辿るであろう経路を予測する点にある。複雑なツールチェーンの結果を先読みする「投機的プランニング」により、冗長なステップの省略や、解決策が既に見えている場合の高コストな処理の早期中断が可能になった。また、精度を維持するために「認知的ゲーティング」と呼ばれる機構を採用。これは品質フィルタとして機能し、自身の予測に対する確信度を測定することで、誤りのリスクが低い場合にのみショートカットを実行するように制御する仕組みだ。
業界標準のベンチマークであるV Benchを用いた実験では、処理速度が最大3.35倍向上しただけでなく、特定のタスクで精度が約7%改善するという驚くべき結果が得られた。これは、ヘテロジニアス並列ファンネルの採用により、大規模モデルが主要な計算を行う裏で小規模モデルを先行して作業させた成果である。このマルチタスク的な手法はスループットを最大化し、品質を落とすことなく、より多くのユーザーリクエストを同時に処理することを可能にしている。