라떼군 이야기


하루에만 두 번째? 깃허브(GitHub) 대규모 장애가 남긴 과제와 시사점

TL;DR 깃허브의 핵심 기능인 Actions, Git 작업, 이슈 트래킹 등이 광범위한 장애를 겪었으며, 이는 같은 날 발생한 두 번째 사고였습니다. 현재 모든 서비스는 복구되었으나, 개발 인프라의 중앙 집중화에 따른 리스크를 다시 한번 상기시켜 줍니다.


전 세계 개발자들의 놀이터이자 업무 공간인 깃허브(GitHub)가 멈춘다면 어떤 일이 벌어질까요? 최근 깃허브는 하루에 두 번이나 연속적인 장애를 겪으며 수많은 개발 팀의 워크플로우를 마비시켰습니다. 단순한 접속 지연을 넘어 CI/CD 파이프라인과 코드 배포까지 중단시킨 이번 사태는, 우리가 의존하고 있는 클라우드 개발 환경의 안정성에 대해 중요한 질문을 던집니다.

핵심 내용

이번 장애는 단순히 웹사이트 접속이 안 되는 수준을 넘어섰습니다. Git 작업(push/pull), Actions(CI/CD), Issues, Pull Requests, Pages, Packages 등 개발 수명 주기 전반에 걸친 핵심 서비스들이 ‘성능 저하’ 및 ‘가용성 문제’를 겪었습니다. 깃허브 팀은 문제를 인지한 후 완화 조치(mitigations)를 적용하며 점진적으로 복구했으나, Copilot과 Dependabot 같은 자동화 도구까지 영향을 받았습니다. 현재는 모든 시스템이 정상화되었으며, 추후 상세한 근본 원인 분석(RCA)이 공개될 예정입니다.

기술적 인사이트

엔지니어링 관점에서 이번 사고는 ‘단일 실패 지점(SPOF)‘의 위험성을 보여줍니다. 서로 다른 아키텍처를 가질 것으로 예상되는 Actions(컴퓨팅), Git(스토리지/버전관리), Issues(데이터베이스)가 동시에 영향을 받았다는 것은, 이들을 지탱하는 공통 인프라 계층(예: 인증 서비스, 메인 DB 클러스터, 혹은 L7 로드밸런서)에서 문제가 발생했을 가능성이 높습니다. 이는 마이크로서비스 아키텍처라도 공유된 의존성(Shared dependency)이 무너지면 연쇄적인 장애(Cascading Failure)로 이어질 수 있음을 시사하는 전형적인 사례입니다.

시사점

이번 사태는 기업과 개발팀에게 ‘비상 계획(Contingency Plan)‘의 필요성을 강조합니다. 깃허브가 멈추면 배포도 멈추는 현재의 구조에서는, 깃허브 장애가 곧 비즈니스 장애로 직결됩니다. 실무적으로는 로컬 빌드 가능 여부 확인, 긴급 배포를 위한 대체 경로 마련, 혹은 멀티 리포지토리 전략 등을 고민해봐야 할 시점입니다. 또한, SLA(서비스 수준 협약)에만 의존하기보다, 도구의 가용성이 100%가 아님을 전제로 한 개발 프로세스 설계가 요구됩니다.


클라우드 기반 개발 도구는 편리하지만, 그만큼 통제권을 외부 서비스에 위임하는 것입니다. 깃허브가 공개할 사후 분석(RCA)을 기다리며, 우리 팀은 깃허브가 하루 종일 멈췄을 때도 소프트웨어를 배포할 수 있는지 자문해봐야 합니다.

원문 읽기

Collaboration & Support (협업 및 후원) Get in touch (연락하기) →