라떼군 이야기
월 200달러짜리 AI가 내 업무 방식을 몰래 바꾼다? 클로드 코드의 숨겨진 A/B 테스트 논란
TL;DR 앤스로픽이 유료 AI 개발 도구인 클로드 코드에서 사용자 몰래 핵심 기능에 대한 A/B 테스트를 진행해 논란이 되고 있습니다. 한 개발자가 바이너리를 분석한 결과, 사용자의 동의 없이 AI의 계획 수립 방식이 강제로 변경되고 있었으며, 이는 프로페셔널 도구에 필수적인 투명성과 일관성을 훼손하는 사례로 지적됩니다.
최근 AI 코딩 어시스턴트가 개발자들의 필수 도구로 자리 잡으면서, 도구의 일관성과 신뢰성이 그 어느 때보다 중요해졌습니다. 이런 가운데 ‘안전한 AI’를 표방하는 앤스로픽(Anthropic)이 자사의 고가 유료 도구인 ‘클로드 코드(Claude Code)‘에서 사용자 몰래 A/B 테스트를 진행한 사실이 밝혀져 파장이 일고 있습니다. B2C 서비스에서는 흔한 실험 문화가, 고도의 제어권이 필요한 B2B 및 프로페셔널 워크플로우에 무분별하게 적용되었을 때 어떤 문제가 발생하는지 보여주는 대표적인 사례입니다.
핵심 내용
원문 작성자는 월 200달러를 지불하는 클로드 코드의 기능이 예고 없이 변경되는 것에 의문을 품고 바이너리를 직접 디컴파일했습니다. 그 결과, GrowthBook을 통해 관리되는 ‘plan_structure_variant’라는 숨겨진 A/B 테스트가 작동 중임을 발견했습니다. 이 테스트는 AI가 작업 계획을 세우는 방식을 4단계로 나누어, 가장 극단적인 경우 컨텍스트나 설명을 모두 생략하고 40줄 이내로 답변을 강제하도록 설정되어 있었습니다. 사용자는 이러한 실험에 참여한다는 알림이나 동의(Opt-in) 절차를 전혀 거치지 않았으며, 원래 제공되던 인간과 AI 간의 상호작용(Human-in-the-loop) 기회마저 박탈당했습니다. 작성자는 앤스로픽이 사용자 경험을 고의로 훼손하려 한 것은 아니겠지만, 유료 사용자를 실험쥐 취급하며 투명성을 저버렸다고 강하게 비판합니다.
기술적 인사이트
소프트웨어 엔지니어링 관점에서 이 사건은 ‘데이터 기반 최적화’와 ‘사용자 경험의 일관성’ 사이의 기술적 트레이드오프를 극명하게 보여줍니다. 메타(Meta)와 같은 B2C 플랫폼에서는 백그라운드 A/B 테스트를 통한 지표 최적화(예: 응답 속도, 토큰 절약 등)가 당연한 프랙티스지만, 개발자용 도구에서는 치명적인 안티 패턴이 될 수 있습니다. 특히 LLM 기반 도구는 프롬프트나 컨텍스트 구조가 조금만 바뀌어도 결과물의 품질과 워크플로우가 완전히 달라지는 비결정적(non-deterministic) 특성을 가집니다. 따라서 엔지니어들은 AI 도구의 내부 동작을 예측하고 제어(Steering)할 수 있어야 하는데, 서버 사이드에서 강제로 프롬프트 체인을 변경하면 사용자는 원인 모를 성능 저하(Regression)로 느끼게 됩니다. 이는 AI 프로덕트 개발 시, 대상 유저층의 특성에 따라 실험 인프라와 피처 플래그(Feature Flag) 적용 전략이 완전히 달라져야 함을 시사합니다.
시사점
이 논란은 AI 도구를 만드는 기업들에게 ‘투명성’이 단순한 윤리적 구호가 아니라 핵심 제품 기능(Feature)이라는 점을 일깨워줍니다. 실무적으로 AI 기반의 프로덕트를 개발할 때는, 모델의 동작 방식을 변경하는 실험을 진행할 경우 반드시 사용자에게 ‘실험 참여 여부(Opt-in)‘나 ‘이전 버전 롤백(Toggle)’ 기능을 제공해야 합니다. 또한, 사용자 워크플로우에 직접적인 영향을 미치는 프롬프트나 에이전트 파이프라인의 변경은 릴리스 노트나 UI를 통해 명확히 고지하는 등, 신뢰를 기반으로 한 프로덕트 운영 정책이 필수적입니다.
AI 기술이 고도화될수록 우리는 AI가 어떻게 작동하는지 통제할 수 있는 ‘제어권’을 잃어가고 있는 것은 아닐까요? 데이터 기반의 빠른 제품 개선도 중요하지만, 사용자가 자신의 도구를 신뢰하고 주도적으로 활용할 수 있는 환경을 어떻게 보장할 것인지 업계 전체의 깊은 고민이 필요한 시점입니다.