3970억 파라미터 AI를 48GB 맥북에서? SSD 스트리밍이 만든 로컬 추론의 기적
TL;DR 3970억 파라미터의 초대형 MoE 모델을 48GB RAM을 가진 맥북 프로에서 실행하는 기술적 돌파구가 마련되었습니다. SSD에서 필요한 가중치만 실시간으로 스트리밍하는 방식을 통해 VRAM의 한계를 극복했으며, 이는 고가의 서버 없이도 소비자용 기기에서 초대형 AI를 구동할 수 있는 새로운 가능성을 제시합니다.
초대형 언어 모델(LLM)의 매개변수가 수천억 개 단위로 커지면서, 이를 구동하기 위한 하드웨어 비용은 기하급수적으로 증가해 왔습니다. 하지만 최근 고가의 GPU 클러스터 대신 우리가 일상적으로 사용하는 노트북에서 초대형 AI를 실행하려는 시도가 결실을 맺고 있습니다. 특히 Apple Silicon의 고대역폭 통합 메모리와 초고속 NVMe SSD를 활용한 하드웨어 최적화는 로컬 AI의 한계를 재정의하고 있습니다. 이는 단순히 흥미로운 실험을 넘어, 거대 모델의 민주화와 엣지 컴퓨팅의 새로운 패러다임을 보여주는 중요한 이정표입니다.
핵심 내용
최근 공개된 Flash-MoE 프로젝트는 3970억(397B) 파라미터 규모의 Qwen3.5-397B-A17B 모델을 단 48GB RAM이 탑재된 MacBook Pro M3 Max에서 구동하는 데 성공했습니다. 이 모델은 60개의 트랜스포머 레이어와 레이어당 512개의 전문가(Expert)로 구성된 Mixture-of-Experts(MoE) 아키텍처를 사용하며, 토큰당 단 4개의 전문가만 활성화하여 계산 효율을 높입니다. 4비트 양자화를 적용해 전체 모델 크기를 209GB로 압축했으며, 이를 메모리에 전부 올리는 대신 초당 17.5GB 읽기 속도를 지원하는 SSD에서 필요한 가중치만 실시간으로 스트리밍합니다. 이 과정에서 복잡한 프레임워크 없이 순수 C와 Metal 셰이더만으로 추론 엔진을 구축하여 초당 약 4.4 토큰의 생성 속도를 달성했습니다. 특히 Apple의 ‘LLM in a Flash’ 논문에서 영감을 받아 별도의 커스텀 캐시 없이 OS의 페이지 캐시를 신뢰하는 방식을 채택한 것이 핵심입니다.
기술적 인사이트
엔지니어링 관점에서 이 접근법의 가장 큰 의의는 VRAM 용량의 물리적 한계를 I/O 대역폭과 컴퓨팅 최적화로 우회했다는 점입니다. 기존에는 397B 모델을 돌리려면 수백 GB 이상의 VRAM이 필요했지만, SSD 스트리밍(토큰당 약 943MB I/O 발생)을 통해 메모리 장벽을 허물었습니다. GPU의 융합 곱셈-덧셈(FMA) 유닛을 활용한 마이크로 최적화로 디양자화 성능을 12% 향상시킨 점도 돋보입니다. 하지만 명확한 트레이드오프가 존재합니다. 4비트 양자화는 도구 호출(Tool calling)이 가능한 프로덕션 품질을 유지하지만, 디스크 용량을 120GB로 줄이기 위해 2비트로 낮추면 JSON 출력에 오류가 발생해 기능이 크게 훼손됩니다. 또한, Apple Silicon의 통합 메모리 구조 특성상 SSD DMA와 GPU 연산이 메모리 컨트롤러를 공유하므로, 이를 무리하게 병렬화하기보다는 직렬 파이프라인(GPU → SSD → GPU)으로 구성하는 것이 하드웨어적으로 최적이라는 역설적인 결론도 흥미로운 포인트입니다.
시사점
이러한 기술적 성취는 오픈 가중치 모델의 활용 범위를 클라우드에서 개인용 디바이스로 크게 확장시킵니다. 비록 초당 4.4 토큰의 속도는 실시간 대화형 서비스에는 다소 느리지만, 로컬 환경에서의 대규모 문서 요약, 코드 분석 등 프라이버시가 중요한 배치 처리 작업에는 충분히 실용적입니다. 일각에서는 대용량 가중치의 지속적인 스트리밍이 SSD 수명을 단축시킬 것이라 우려하지만, SSD 마모는 쓰기 작업에서 주로 발생하므로 읽기 위주의 추론 작업은 하드웨어에 무리를 주지 않습니다. 다만 현재 구현이 Apple M3 Max 등 특정 하드웨어 아키텍처에 강하게 종속되어 있고, 순수 C/Metal 기반이라 일반 개발자들의 진입 장벽이 높다는 점은 향후 생태계가 극복해야 할 과제입니다.
초대형 모델을 압축하고 스토리지를 활용해 스트리밍하는 기술은 앞으로 엣지 디바이스와 AI의 결합을 가속화할 핵심 동력이 될 것입니다. 클라우드 종속성에서 벗어나 내 노트북 안에서 완벽한 데이터 프라이버시를 보장하며 수천억 파라미터의 지능을 활용하는 미래가 이미 우리 곁에 다가왔습니다.
참고문헌
- Original article - https://github.com/danveloper/flash-moe
- https://github.com/danveloper/flash-moe/blob/main/CLAUDE.md
- https://www.moneycontrol.com/technology/cvs-health-vp-of-ai-platforms-runs-397b-parameter-model-locally-on-macbook-pro-says-this-changes-what-s-article-13867206.html
- https://news.ycombinator.com/item?id=47476422
- https://www.deeplearning.ai/the-batch/alibabas-latest-flagship-models-are-open-weights-moe-performers-in-sizes-from-less-than-1b-parameters/
- https://qwen.ai/blog?id=qwen3.5