この記事の要点は？

追加学習なしでリアルタイムのストリーミング動画理解を可能にする新アーキテクチャ「HERMES」が登場した。 TTFT（最初のトークン生成までの時間）を10倍高速化し、動画トークンの使用量を68%削減することに成功した。階層型メモリの採用により、動画の長さに関わらずGPUメモリ使用量を一定に保ち、システムクラッシュを防ぐ。

HERMES：階層型メモリで動画解析を高速化

•追加学習なしでリアルタイムのストリーミング動画理解を可能にする新アーキテクチャ「HERMES」が登場した。
•TTFT（最初のトークン生成までの時間）を10倍高速化し、動画トークンの使用量を68%削減することに成功した。
•階層型メモリの採用により、動画の長さに関わらずGPUメモリ使用量を一定に保ち、システムクラッシュを防ぐ。

•追加学習なしでリアルタイムのストリーミング動画理解を可能にする新アーキテクチャ「HERMES」が登場した。
•TTFT（最初のトークン生成までの時間）を10倍高速化し、動画トークンの使用量を68%削減することに成功した。
•階層型メモリの採用により、動画の長さに関わらずGPUメモリ使用量を一定に保ち、システムクラッシュを防ぐ。

最新のマルチモーダル大規模言語モデル（MLLM）は、静止した動画ファイルの解析には極めて優れている。しかし、ライブ映像をリアルタイムで処理しようとすると、膨大なメモリ消費と遅延の壁に突き当たることが多い。HERMESはこのボトルネックを解消するため、モデル内部のKVキャッシュを「階層型メモリシステム」として再定義した。 HERMESは、すべての動画データを一様に扱うのではなく、情報を「感覚メモリ」「短期記憶」「長期記憶」の3層に分類する。これは人間の認知プロセスを模倣したものだ。ニューラルネットワークの浅い層で直近の出来事を捉え、深い層で長期的な意味内容を保持する。この手法は追加学習が不要なプラグアンドプレイ方式であるため、開発者は既存のモデルをそのまま強化できるのが大きな利点だ。その成果は驚異的である。最初のレスポンス生成までの時間（TTFT）は10倍に短縮され、冗長な動画トークンの最大68%を削減しても高い精度を維持できる。動画の長さに関わらずGPUメモリの使用量を一定に保てるため、長尺動画で頻発するメモリ不足エラーも解消された。ライブストリーミング環境における、より実用的なAIアシスタントの実現に道を開く技術といえるだろう。

HERMES：階層型メモリで動画解析を高速化

タグ