この記事の要点は？

48GBのMacBook Pro上で、Qwen 397Bモデルを毎秒5.5トークンの速度で動作させることに成功した。 Appleの研究「LLM in a Flash」に基づき、SSDから重みをストリーミングする手法を採用している。 AIによる「自動リサーチ」を活用し、90回の実験を経てコードの最適化が行われた。

Appleの技術でQwen 397Bをローカル実行

•48GBのMacBook Pro上で、Qwen 397Bモデルを毎秒5.5トークンの速度で動作させることに成功した。
•Appleの研究「LLM in a Flash」に基づき、SSDから重みをストリーミングする手法を採用している。
•AIによる「自動リサーチ」を活用し、90回の実験を経てコードの最適化が行われた。

通常はサーバー室一杯の機材を必要とする巨大なAIモデルを、標準的なハイエンドノートPCで動かすことが現実となった。研究者のダン・ウッズ(Dan Woods)氏は、ディスク上で200GB以上の容量を占めるQwen3.5-397B-A17Bモデルを、わずか48GBのメモリを搭載したMacBook Proで動作させるという快挙を成し遂げた。

この突破口となったのは、Appleの研究者がメモリ制限を克服するために提案した「LLM in a Flash」と呼ばれる手法である。通常、AIモデルは情報の処理方法を決定する「重み」という数値をすべて高速なRAM上に保持する必要がある。しかし、このモデルはMixture-of-Experts (MoE)というアーキテクチャを採用しており、特定のテキストを処理する際に「脳」の全機能のうち、ごく一部のみを活性化させる仕組みを持っている。

主要なパーツのみをRAMに置き、専門的な「エキスパート」の重みは必要に応じて低速なストレージ（SSD）からストリーミングすることで、毎秒5.5トークンという実用的な速度を維持した。この複雑なプロセスを磨き上げるため、ダン・ウッズ(Dan Woods)氏はAIコーディングツールに90回の実験を行わせる「自動リサーチ」手法を導入し、最も効率的なコードを自動的に導き出した。

高い圧縮率における出力品質については評価の途上にあるものの、この実験はAIのアクセシビリティにおける大きな転換点となるだろう。巨大なクラウドデータセンターに依存せず、個人のハードウェアで強力なモデルを実行できる未来は、ユーザーにさらなるプライバシーの保護とコストの削減をもたらす可能性を秘めている。

通常はサーバー室一杯の機材を必要とする巨大なAIモデルを、標準的なハイエンドノートPCで動かすことが現実となった。研究者のダン・ウッズ(Dan Woods)氏は、ディスク上で200GB以上の容量を占めるQwen3.5-397B-A17Bモデルを、わずか48GBのメモリを搭載したMacBook Proで動作させるという快挙を成し遂げた。

この突破口となったのは、Appleの研究者がメモリ制限を克服するために提案した「LLM in a Flash」と呼ばれる手法である。通常、AIモデルは情報の処理方法を決定する「重み」という数値をすべて高速なRAM上に保持する必要がある。しかし、このモデルはMixture-of-Experts (MoE)というアーキテクチャを採用しており、特定のテキストを処理する際に「脳」の全機能のうち、ごく一部のみを活性化させる仕組みを持っている。

主要なパーツのみをRAMに置き、専門的な「エキスパート」の重みは必要に応じて低速なストレージ（SSD）からストリーミングすることで、毎秒5.5トークンという実用的な速度を維持した。この複雑なプロセスを磨き上げるため、ダン・ウッズ(Dan Woods)氏はAIコーディングツールに90回の実験を行わせる「自動リサーチ」手法を導入し、最も効率的なコードを自動的に導き出した。

高い圧縮率における出力品質については評価の途上にあるものの、この実験はAIのアクセシビリティにおける大きな転換点となるだろう。巨大なクラウドデータセンターに依存せず、個人のハードウェアで強力なモデルを実行できる未来は、ユーザーにさらなるプライバシーの保護とコストの削減をもたらす可能性を秘めている。

Appleの技術でQwen 397Bをローカル実行

タグ