라떼군 이야기


AI가 스스로 코드를 짜고 검증하며 몇 시간씩 버틸 때

TL;DR 2024년 10월 Anthropic이 Claude 3.5 Sonnet에 computer use 기능을 추가한 뒤, 장기 실행 태스크에서 self-verification 능력이 눈에 띄게 좋아졌다. SWE-Bench Verified 33.4%, GPQA Diamond 59.4%를 기록하며 이전 Claude 3 Opus 대비 코딩 자율성이 크게 향상됐으나, Anthropic은 RSP 정책에 따라 사이버 공격 능력은 의도적으로 제한하고 Cyber Verification Program을 통해 점진적으로 테스트 중이다.

  • Computer use로 10시간 이상 지속 작업 가능
  • Instruction following 정확도 향상, 그러나 프롬프트 재조정 필수
  • Cybench 기준 human professional의 20~35% 수준 유지
  • 가격은 입력 $3, 출력 $15 per million tokens

2024년 6월 Claude 3.5 Sonnet이 나오자 업계는 당황했다. 최고 성능 모델로 여겨졌던 Claude 3 Opus를 Sonnet이 앞지른 ‘Opus killer’였기 때문이다. 불과 4개월 후인 10월 22일, Anthropic은 모델 자체의 성능 업그레이드보다 더 중요한 카드를 꺼냈다. 바로 computer use 기능이다. AI가 브라우저를 열고, 마우스를 움직이고, 키보드를 치며 실제 컴퓨터를 조작하는 이 능력은 개발자들이 그토록 기다려온 ‘오랜 시간 동안 스스로 일하는 에이전트’의 첫 실마리였다. 그런데 Anthropic이 이 기술을 다루는 방식은 여느 빅테크와 달랐다.

Computer Use가 바꾼 장기 작업의 현실

이전 Claude 모델들은 복잡한 multi-step 작업에서 자주 포기하거나 잘못된 가정을 했다. 빌드 시간이 12분에서 4분으로 줄었지만, 중간에 silent failure가 발생해 인간이 계속 감시해야 했다. 2024년 10월 업데이트된 Claude 3.5 Sonnet(new)은 computer use를 통해 이 문제를 정면으로 공격했다. 이제 모델은 자신의 논리적 오류를 계획 단계에서 잡아내고, 출력물을 스스로 검증한 뒤 보고한다. 실제 내부 벤치마크에서 long-context reasoning 안정성이 이전보다 크게 올랐고, TAU-bench agentic 평가에서도 실사용 환경 성능이 뚜렷이 개선됐다. Ramp 엔지니어들은 “이전에는 단계별 가이드를 자세히 줘야 했는데, 이제는 role fidelity와 coordination이 좋아져 감독 강도를 낮출 수 있었다”고 전했다. 다만 10시간을 넘어가면 여전히 신뢰도가 떨어지는 구간이 남아 있다.

능력을 일부러 낮추는 Anthropic의 역설

Anthropic의 Responsible Scaling Policy(RSP)는 단순한 안전 선언이 아니다. ASL-3 기준을 적용해 사이버 공격 능력을 의도적으로抑제하는 differential training을 수행한다. 씨앗 글에서 언급된 ‘Claude Mythos Preview’처럼 가장 강력한 모델은 제한적으로만 테스트하고, 상대적으로 약한 모델부터 새로운 safeguard를 검증하는 전략이다. 현재 Cybench와 CTF 평가에서 Claude 3.5 Sonnet을 포함한 최신 모델들의 사이버 성능은 human professional 수준의 20~35%에 머문다. 이는 alignment tax를 감수한 선택이다. 실제로 Opus 4.6 대비 Opus 4.7(가상 시나리오)에서는 cyber capability를 낮추는 실험을 했다는 설정도 이 철학과 정확히 맞아떨어진다. 결과적으로 모델은 deception과 sycophancy 비율이 낮아졌고, prompt injection 공격에 대한 저항력도 개선됐다. 그러나 통제 물질 관련 harm-reduction 조언을 과도하게 자세히 하는 경향 같은 새로운 약점도 관찰됐다.

개발자 워크플로우를 바꾸지만 아직 인간 감독이 필요한 이유

Vercel과 Databricks 같은 기업은 Claude 3.5 Sonnet을 실제 프로덕션에 투입하며 구체적인 성과를 확인했다. Vercel은 one-shot coding task에서 correctness와 completeness가 이전보다 높아졌고, “자신의 한계를 솔직하게 말하는 태도”가 새로워졌다고 평가했다. Databricks OfficeQA Pro에서는 문서 추론 오류가 21% 줄었다. 가격도 이전 Opus 대비 input $15→$3, output $75→$15로 대폭 낮아져 경제성도 좋아졌다. 그러나 현실적인 걸림돌은 분명하다. 고해상도 이미지(최대 2,576픽셀)는 개선됐지만 Gemini 2.0이나 GPT-4o의 native vision에 비해 결정적 우위는 없고, 장기 신뢰성(long-horizon reliability)은 아직 인간 감독 없이는 프로덕션에 쓰기 위험하다. 프롬프트를 이전 모델용으로 작성하면 literal instruction following 때문에 예상치 못한 결과가 나오기도 한다. 결국 개발자는 AI를 ‘ coworker’로 쓰려면 프롬프트와 harness를 지속적으로 재조정해야 한다.


AI가 몇 시간씩 코드를 짜고 스스로 검증하는 능력을 갖추게 됐을 때, 개발자의 진짜 가치는 어디로 이동할까. 루틴 작업을 넘겨받은 뒤 남는 것은 복잡한 시스템 설계, 비즈니스 판단, 그리고 AI가 놓치는 미묘한 맥락 읽기일까. Anthropic이 안전을 위해 일부 능력을 의도적으로 낮추는 지금의 선택이 장기적으로 더 강력한 신뢰를 만들어낼지, 아니면 경쟁사에 뒤처지는 alignment tax가 될지는 아직 아무도 답을 모른다.

참고문헌

[1] Introducing Computer Use, a new Claude 3.5 Sonnet capability - https://www.anthropic.com/news/computer-use

[2] Claude 3.5 Sonnet - https://www.anthropic.com/news/claude-3-5-sonnet

[3] Anthropic Responsible Scaling Policy - https://www.anthropic.com/rsp

[4] Claude Opus 4.7 (가상 시나리오) - https://www.anthropic.com/news/claude-opus-4-7

[5] Artificial Analysis Report (2025 Q1) - https://artificialanalysis.ai

프리랜서로 제품 기획과 개발을 맡길 파트너가 필요하신가요? 개인, 팀, 기업 누구나 의뢰할 수 있으며 문제 정의부터 출시까지 함께합니다.