라떼군 이야기


구글의 HTTPS 인증서 발급이 멈췄다? Google Public CA 장애 사태와 시사점

TL;DR Google Trust Services에 장애가 발생하여 ACME API를 통한 TLS 및 SXG 인증서 발급이 전면 중단되었습니다. 해결을 위한 패치 배포에 약 8시간이 소요될 예정으로, 자동화된 인증서 갱신 파이프라인에 영향이 있을 수 있습니다.


웹 보안의 핵심인 HTTPS 인증서 발급 기관(CA) 중 하나인 구글(Google Trust Services)에서 심각한 장애가 발생했습니다. 특히 자동화된 인증서 발급에 표준으로 사용되는 ACME 프로토콜 관련 서비스가 중단되었다는 점은 주목할 만합니다. 이번 사건은 클라우드 인프라와 자동화된 보안 시스템이 특정 공급자에게 의존할 때 발생할 수 있는 리스크를 보여주는 중요한 사례입니다.

핵심 내용

원문에 따르면 현재 구글의 Public CA 서비스 중 ACME API(TLS 및 SXG용)에 장애가 발생하여 인증서 발급 프로세스가 강제로 중단(halted)되었습니다. 구글 측은 ‘배포(rollout)가 발급을 막고 있다’고 언급하며, 이는 단순 서버 다운이 아니라 시스템 업데이트나 변경 사항 적용 중 발생한 문제임을 시사합니다. 가장 우려되는 점은 복구 시간인데, 문제를 해결할 수정 사항이 배포되기까지 약 8시간이 걸릴 것으로 예상되어 장애 시간이 상당히 길어질 전망입니다.

기술적 인사이트

엔지니어링 관점에서 이번 사태는 ‘Fail-Closed(안전하게 실패하기)’ 원칙의 실제 사례로 볼 수 있습니다. 인증서 발급 시스템에 문제가 생겼을 때, 잘못된 인증서를 발급하기보다는 아예 발급을 중단하는 것이 보안상 안전하기 때문입니다. 하지만 8시간이라는 긴 복구 시간은 구글 같은 거대 기업의 CI/CD 파이프라인에서도 롤백이나 긴급 패치가 쉽지 않은 복잡한 의존성이 있음을 암시합니다. 또한, 이는 단일 CA에만 의존하는 자동화 스크립트가 얼마나 취약할 수 있는지 보여주는 기술적 경고이기도 합니다.

시사점

이번 장애는 Let’s Encrypt의 대안으로 구글 CA를 사용하는 개발자나 기업에게 즉각적인 영향을 미칩니다. 특히 유효기간이 짧은 인증서를 사용하거나, 인프라가 동적으로 확장되면서 실시간으로 인증서를 발급받아야 하는 시스템은 장애 시간 동안 서비스 오류를 겪을 수 있습니다. 실무적으로는 cert-manager나 ACME 클라이언트 설정 시, 주 CA가 응답하지 않을 경우 Let’s Encrypt나 ZeroSSL 등 다른 CA로 자동 전환(Fallback)되도록 구성하는 ‘Multi-CA’ 전략의 필요성을 강력하게 시사합니다.


구글과 같은 빅테크 기업의 핵심 인프라 서비스도 언제든 멈출 수 있다는 사실을 다시 한번 상기시켜 줍니다. 여러분의 시스템은 인증서 발급 실패 시 자동으로 대처할 수 있는 회복 탄력성(Resilience)을 갖추고 있나요? 이번 기회에 PKI(공개 키 기반 구조) 의존성을 점검해 볼 필요가 있습니다.

원문 읽기

Collaboration & Support (협업 및 후원) Get in touch (연락하기) →