Appleの技術でQwen 397Bをローカル実行
2026年3月19日 (木)
- •48GBのMacBook Pro上で、Qwen 397Bモデルを毎秒5.5トークンの速度で動作させることに成功した。
- •Appleの研究「LLM in a Flash」に基づき、SSDから重みをストリーミングする手法を採用している。
- •AIによる「自動リサーチ」を活用し、90回の実験を経てコードの最適化が行われた。
通常はサーバー室一杯の機材を必要とする巨大なAIモデルを、標準的なハイエンドノートPCで動かすことが現実となった。研究者のダン・ウッズ(Dan Woods)氏は、ディスク上で200GB以上の容量を占めるQwen3.5-397B-A17Bモデルを、わずか48GBのメモリを搭載したMacBook Proで動作させるという快挙を成し遂げた。
この突破口となったのは、Appleの研究者がメモリ制限を克服するために提案した「LLM in a Flash」と呼ばれる手法である。通常、AIモデルは情報の処理方法を決定する「重み」という数値をすべて高速なRAM上に保持する必要がある。しかし、このモデルはMixture-of-Experts (MoE)というアーキテクチャを採用しており、特定のテキストを処理する際に「脳」の全機能のうち、ごく一部のみを活性化させる仕組みを持っている。
主要なパーツのみをRAMに置き、専門的な「エキスパート」の重みは必要に応じて低速なストレージ(SSD)からストリーミングすることで、毎秒5.5トークンという実用的な速度を維持した。この複雑なプロセスを磨き上げるため、ダン・ウッズ(Dan Woods)氏はAIコーディングツールに90回の実験を行わせる「自動リサーチ」手法を導入し、最も効率的なコードを自動的に導き出した。
高い圧縮率における出力品質については評価の途上にあるものの、この実験はAIのアクセシビリティにおける大きな転換点となるだろう。巨大なクラウドデータセンターに依存せず、個人のハードウェアで強力なモデルを実行できる未来は、ユーザーにさらなるプライバシーの保護とコストの削減をもたらす可能性を秘めている。