AI学習コストを劇的に削減する「CompreSSM」の新技術
- •マサチューセッツ工科大学(MIT)の研究チームが、学習中のAIモデルを圧縮する手法「CompreSSM」を発表した。
- •本手法により、State-Space Modelの学習速度が精度を犠牲にすることなく4倍に向上した。
- •学習の途中で冗長な構成要素を特定・削除することで、学習後の計算負荷の高いPruning作業を不要にする。
AIモデルの高性能化には膨大な計算資源、時間、エネルギーが投じられている。従来、エンジニアは巨大なモデルを学習させた後に不要な部分を削るか、最初から小規模なモデルで妥協するかという難しい選択を迫られてきた。MITのコンピュータ科学・人工知能研究所(CSAIL)とマックス・プランク研究所、Liquid AIの研究チームは、このトレードオフを解消する画期的な手法を開発した。
「CompreSSM」と名付けられたこの技術は、学習プロセスそのものに圧縮工程を統合する。これは、オーディオやテキストなどの順序データを処理するState-Space Modelを対象とし、制御工学の理論を応用したものだ。学習の過程でモデル内部の重要度を分析し、不要な要素を早期に切り捨てることで、残りの学習サイクルを効率化する仕組みとなっている。
興味深いのは、モデルの内部的な重要度が学習開始からわずか10%の段階で安定するという発見だ。研究チームは「Hankel singular values」という指標を用い、各要素の寄与度を算出して微細な重要度の次元を特定・削除している。その結果、CIFAR-10などのベンチマークにおいて、フルサイズのモデルとほぼ変わらない精度を維持しつつ、学習速度を大幅に向上させることに成功した。特にMambaのような人気アーキテクチャでは、約4倍の高速化が観測されている。
このアプローチは、巨大な「教師」モデルを必要とする知識蒸留や、学習後の資源を浪費する従来のPruningと比較して、極めて効率的である。CompreSSMは学習中に動的に判断を行うため、無駄な計算を防ぐことができる。万が一、圧縮によって精度が低下した場合には、過去のチェックポイントへ復元可能な安全策も備えており、エンジニアが自身のニーズに応じて速度と精度のバランスを管理できる。
現段階では特定のアーキテクチャが対象だが、研究チームはさらなる応用を見据えている。彼らは、今日のAIシステムを支える巨大なTransformerアーキテクチャの基盤技術である線形アテンション機構への展開が可能だと考えている。AIが学習プロセスの中で自律的に効率的な構造を見出す未来は、開発の高速化だけでなく、AIの持続可能性を根本から変える可能性を秘めている。