라떼군 이야기
클라우드 렌트비로 300억을 날리느니 직접 짓겠다: Comma.ai의 자체 데이터센터 구축기
TL;DR 자율주행 기업 comma.ai는 클라우드 대신 500만 달러를 들여 자체 데이터센터를 구축함으로써 클라우드 예상 비용 대비 2,500만 달러 이상을 절감했습니다. 하드웨어를 직접 소유하는 것이 비용 절감뿐만 아니라 엔지니어링 문제 해결 능력을 키우고 비효율적인 코드를 개선하게 만든다는 그들의 철학과 구체적인 구축 노하우를 요약합니다.
오늘날 스타트업이나 기술 기업에게 ‘클라우드 퍼스트’는 당연한 상식처럼 여겨집니다. 하지만 AWS나 GCP의 청구서가 눈덩이처럼 불어날 때, 과연 이것이 최선인지 의문을 품게 됩니다. 이 글은 자율주행 기술을 개발하는 comma.ai가 왜 클라우드를 버리고 직접 데이터센터를 짓기로 결정했는지, 그리고 그 과정에서 어떻게 수백억 원을 아끼고 기술적 주도권을 되찾았는지에 대한 흥미로운 사례를 다룹니다. ‘클라우드 회귀(Cloud Repatriation)’ 트렌드의 실전 가이드라 할 수 있습니다.
핵심 내용
핵심 주장은 ‘컴퓨팅 자원을 빌리지 말고 소유하라’입니다. comma.ai는 약 500만 달러를 투자해 600개의 GPU와 4PB의 스토리지를 갖춘 데이터센터를 구축했으며, 이를 클라우드에서 운용했다면 2,500만 달러 이상이 들었을 것이라 추산합니다. 그들은 캘리포니아의 비싼 전기료에도 불구하고 외부 공기를 이용한 단순한 냉각 시스템과 자체 제작한 서버(Tinybox)로 효율을 극대화했습니다. 소프트웨어 측면에서는 복잡한 클라우드 관리 도구 대신 Slurm, Minikeyvalue, Miniray 같은 단순하고 목적에 충실한 오픈소스 및 자체 도구를 사용하여 수천 대의 장비를 관리합니다. 특히 중요한 데이터 외에는 과감히 중복성(Redundancy)을 포기하여 비용과 복잡도를 낮췄습니다.
기술적 인사이트
이 글은 단순히 비용 절감을 넘어 ‘엔지니어링 문화’에 대한 중요한 통찰을 줍니다. 클라우드 환경에서는 성능 문제가 발생하면 단순히 돈을 더 써서 인스턴스를 늘리는 방식으로 해결하려 하지만, 제한된 하드웨어 환경(On-premise)은 엔지니어가 코드를 최적화하고 근본적인 문제를 해결하도록 강제합니다. 기술적으로는 ‘무중단’을 위한 복잡한 엔터프라이즈급 아키텍처 대신, AI 학습 워크로드의 특성(실패 시 재시작 가능)에 맞춰 단일 마스터 노드와 단순한 네트워크 토폴로지를 선택한 실용주의가 돋보입니다. 이는 API와 빌링 시스템에 특화된 ‘클라우드 전문가’가 아닌, 와트(Watt), 비트(Bit), 플롭스(FLOPs)를 이해하는 진짜 ‘컴퓨터 엔지니어’가 되라는 메시지를 던집니다.
시사점
AI 모델 학습처럼 컴퓨팅 부하가 일정하고 예측 가능한 비즈니스 모델을 가진 기업에게 시사하는 바가 큽니다. 무조건적인 클라우드 도입보다는 워크로드의 특성에 따라 온프레미스나 하이브리드 방식이 훨씬 경제적이고 효율적일 수 있음을 증명합니다. 개발자들에게는 쿠버네티스나 클라우드 벤더의 관리형 서비스에만 의존하지 않고, 리눅스 기본기, 네트워크 물리 계층, 하드웨어 구성에 대한 이해도가 다시금 중요해지고 있음을 알립니다.
편리함이라는 명목하에 매달 막대한 ‘클라우드 세금’을 지불하고 있지는 않나요? 물론 모든 회사가 데이터센터를 지을 순 없지만, comma.ai의 사례는 우리의 인프라 결정이 기술적 필요보다 관성에 의해 이루어지고 있지 않은지 되돌아보게 합니다. 여러분의 서비스에서 ‘편리함’의 비용은 과연 적절한가요?