프롬프트 캐싱의 배신: 최고급 AI 요금제가 90분 만에 동나는 이유
TL;DR 최근 거대 언어 모델(LLM) 기반의 코딩 어시스턴트에서 ‘프롬프트 캐싱’이 비용은 줄여주지만, 실제 사용량 제한(Rate Limit)에는 전체 토큰으로 계산되어 요금제가 순식간에 고갈되는 문제가 발생하고 있습니다. 100만 토큰이라는 거대한 컨텍스트 윈도우가 오히려 작업 흐름을 끊는 양날의 검이 된 상황입니다.
AI 코딩 어시스턴트가 개발자들의 필수 도구로 자리 잡으면서, 더 큰 컨텍스트(문맥)를 한 번에 처리할 수 있는 프리미엄 요금제에 대한 수요가 급증하고 있습니다. 하지만 최근 ‘무제한에 가까운’ 것으로 기대되었던 최고급 AI 구독 서비스들이 실제 업무 환경에서 불과 한두 시간 만에 멈춰버리는 사례가 속출하고 있습니다. 이는 단순히 개별 서비스의 버그를 넘어, 거대 언어 모델의 컨텍스트 관리와 캐싱(Caching) 기술이 실제 사용자 경험과 어떻게 충돌하는지 보여주는 중요한 현상입니다.
핵심 내용
여러 개발자 커뮤니티와 GitHub 이슈에 따르면, Claude Pro Max 5x 요금제 사용 시 시간당 50~100회 정도의 API 호출만으로도 1.5시간 내에 일일 할당량(약 20만 토큰)이 소진되는 현상이 나타났습니다. 핵심 원인으로는 ‘캐시 읽기(cache_read)’ 토큰의 처리 방식이 지목됩니다. 비용 청구 시에는 캐시된 토큰이 1/10 가격으로 저렴하게 계산되지만, 시스템의 ‘사용량 제한(Rate Limit)‘을 계산할 때는 할인 없이 전체 토큰 수로 합산되어 할당량을 급속히 갉아먹는 것입니다. 또한, 100만(1M) 토큰에 달하는 거대한 컨텍스트를 유지하기 위해 백그라운드에서 주기적으로 압축(Auto-compact)을 진행할 때 엄청난 토큰 스파이크가 발생합니다. 설상가상으로 최근 프롬프트 캐시 유지 시간이 1시간에서 5분으로 단축되면서 캐시 미스(Cache Miss)가 잦아져, 한 세션에서 구독료 100달러를 훌쩍 넘는 134달러어치의 컴퓨팅 자원이 소모된 사례도 보고되었습니다.
기술적 인사이트
소프트웨어 엔지니어링 관점에서 이 현상은 ‘비용 최적화’와 ‘시스템 부하 관리’ 간의 좁히기 힘든 괴리를 명확히 보여줍니다. 프롬프트 캐싱은 동일한 문맥을 반복해서 읽을 때 연산량(Compute)을 줄여주는 훌륭한 기술이지만, 서버 메모리에 거대한 컨텍스트를 계속 유지하는 것 자체가 인프라 측면에서는 상당한 부담입니다. 따라서 서비스 제공자는 비용은 깎아주더라도, 시스템 전체를 보호하기 위한 API 호출 제한은 엄격하게 적용하는 트레이드오프를 선택한 것으로 보입니다. 비슷한 워크로드에서 OpenAI의 유료 플랜(일일 100만 토큰 제한)이 8~12시간 동안 안정적으로 동작하는 것과 비교하면, 현재 일부 AI 서비스의 숨겨진 사용량 제한 로직은 사용자 입장에서 예측 가능성이 크게 떨어집니다. 결국 ‘100만 토큰 지원’이라는 화려한 마케팅 포인트가, 실제로는 캐시 효율이 떨어질 때 사용자의 작업 흐름을 강제로 끊어버리는 병목 지점이 되었습니다.
시사점
이 사태는 AI 도구를 실무에 도입하려는 기업과 개발자들에게 중요한 시사점을 던집니다. 단순히 ‘컨텍스트 윈도우가 크다’는 스펙만 믿고 프로젝트 전체 코드를 AI에게 한 번에 던져주기보다는, 작업 단위를 작게 쪼개고 불필요한 파일이 컨텍스트에 포함되지 않도록 관리하는 고전적인 최적화가 여전히 필수적입니다. 일각에서는 AI 모델 자체의 성능 저하를 의심하기도 하지만, 이는 모델의 지능 문제라기보다는 요금제 정책과 캐싱 아키텍처의 불안정성에서 기인한 것으로 판단됩니다. 당장 실무에서는 백그라운드에 켜둔 유휴 AI 터미널 세션을 즉각 종료하고, 자동 압축이 발생하기 전에 수동으로 컨텍스트를 초기화하는 등의 방어적인 사용 전략이 필요합니다.
LLM의 컨텍스트 크기 경쟁은 계속되고 있지만, 이를 뒷받침할 인프라와 합리적인 과금 및 제한 모델은 아직 과도기에 있습니다. 앞으로 AI 서비스 제공자들이 얼마나 투명한 실시간 사용량 지표를 제공하고, 캐싱의 이점을 Rate Limit에도 합리적으로 반영해 나갈지 지켜보는 것이 흥미로운 관전 포인트가 될 것입니다.
참고문헌
- Pro Max 5x quota exhausted in 1.5 hours despite moderate usage - https://github.com/anthropics/claude-code/issues/45756
- https://app.daily.dev/posts/bug-pro-max-5x-quota-exhausted-in-1-5-hours-despite-moderate-usage-issue-45756-anthropics-cla-4ulm7xifs
- https://www.promptzone.com/aisha_kapoor_59e0c25c/claude-pro-max-quota-exhausts-in-15-hours-26f5
- https://news.ycombinator.com/item?id=47739260
- https://community.openai.com/t/pro-plan-hit-5-hour-limit-twice-in-2h-and-1-5h-and-nearly-exhausted-weekly-cap-in-1-day-after-today-s-update/1364782/8
- https://github.com/anthropics/claude-code/issues/38335