MacBook에서 구동되는 초거대 모델 Qwen 397B
- •48GB 메모리의 MacBook Pro에서 Qwen 397B 모델을 초당 5.5 토큰 속도로 실행 성공
- •애플의 'LLM in a Flash' 연구를 기반으로 한 SSD 가중치 스트리밍 기술 활용
- •AI 기반 '자동 연구(autoresearch)'를 통해 90회의 실험을 거쳐 코드 최적화 수행
보통 서버실을 가득 채울 만큼 고가의 장비가 필요한 거대 인공지능 모델을 일반적인 고성능 노트북에서 구동하는 것이 이제 현실로 다가왔다. 최근 연구원인 댄 우즈(Dan Woods)는 모델 자체의 크기가 200GB를 넘어서는데도 불구하고, 단 48GB의 메모리만 탑재된 MacBook Pro에서 Qwen3.5-397B-A17B 모델을 구동하는 성과를 거두었다.
이러한 돌파구는 본래 애플 연구진이 메모리 제한 문제를 해결하기 위해 제안했던 'LLM in a Flash' 기술 덕분에 가능했다. 대다수 AI 모델은 정보를 처리할 때 필요한 수치값인 '가중치(weights)'를 컴퓨터의 빠른 임시 저장 장치인 RAM에 모두 보관해야 한다. 하지만 이번 실험에 사용된 모델은 'Mixture-of-Experts(MoE)' 구조를 채택하고 있어, 특정 텍스트를 처리할 때 전체 연산 능력 중 일부만 활성화한다는 특징이 있다.
이에 따라 핵심적인 부분만 RAM에 상주시키고, 필요할 때마다 노트북의 SSD에서 특정 '전문가(expert)' 가중치를 실시간으로 불러오는 스트리밍 방식을 적용했다. 그 결과 시스템은 초당 5.5 토큰이라는 실용적인 속도를 유지할 수 있었다. 특히 댄 우즈(Dan Woods)는 이 복잡한 과정을 정교화하기 위해 AI 코딩 도구가 90번의 실험을 자동으로 수행하며 가장 효율적인 코드를 찾아내는 '자동 연구(autoresearch)' 기법을 도입했다.
비록 높은 압축률에 따른 결과물의 품질은 아직 검증 단계에 있으나, 이번 실험은 AI 접근성에 있어 중대한 전환점을 시사한다. 이는 향후 사용자들이 거대 클라우드 데이터 센터에 의존하지 않고도 개인 기기에서 강력한 모델을 직접 실행함으로써, 개인정보 보호를 강화하고 비용을 절감할 수 있는 미래를 예고한다.