라떼군 이야기


AI 보안의 역설: 수백억짜리 거대 모델의 해킹 실력, 11센트짜리 소형 모델도 해냈다

TL;DR 앤스로픽의 최신 AI ‘미토스(Mythos)‘가 치명적인 제로데이 취약점을 스스로 찾아내며 보안 업계를 놀라게 했지만, 실제로는 저렴한 소형 오픈소스 모델로도 동일한 취약점을 찾아낼 수 있다는 사실이 밝혀졌습니다. AI 보안의 핵심 경쟁력은 거대하고 비싼 단일 모델이 아니라, 작은 모델들을 효율적으로 엮어내는 ‘검증 시스템(Scaffold)’ 그 자체에 있습니다.


최근 앤스로픽(Anthropic)이 스스로 소프트웨어의 취약점을 찾고 해킹 코드까지 작성하는 AI 모델 ‘미토스 프리뷰(Mythos Preview)‘를 발표하며 사이버 보안 생태계에 큰 충격을 주었습니다. 이로 인해 ‘앞으로 보안은 막대한 자본을 가진 빅테크의 거대 AI만이 할 수 있는 영역이 되는 것인가’라는 우려가 제기되었습니다. 하지만 업계의 실제 검증 결과는 전혀 다른 반전을 보여줍니다. 자동화된 보안의 미래는 단 한 명의 ‘천재 해커 AI’가 아니라, 수천 명의 ‘평범하지만 저렴한 AI 탐정’들을 지휘하는 똑똑한 시스템에 있을지도 모릅니다.

핵심 내용

2026년 4월 발표된 미토스는 7,000개 이상의 오픈소스 스택을 분석해 27년 된 OpenBSD 버그와 FreeBSD의 원격 코드 실행(RCE) 취약점 등을 자율적으로 찾아냈습니다. 미토스는 사이버지미(Cyberjimy) 벤치마크에서 83.1%의 점수를 기록하며 기존 모델들을 압도했습니다. 하지만 앤스로픽이 주장한 ‘수천 개의 고위험 제로데이 발견’은 단 198개의 수동 검토 결과를 바탕으로 한 추정치였으며, 실제 확인된 심각한 취약점은 10개 수준이었습니다. 더 흥미로운 점은 보안 기업 AISLE의 테스트 결과입니다. 미토스가 찾아낸 핵심 취약점 코드를 분리해 소형 모델에 주입하자, 테스트한 8개의 소형 모델 모두가 FreeBSD 취약점을 정확히 짚어냈습니다. 여기에는 백만 토큰당 단 0.11달러에 불과한 36억(3.6B) 파라미터 모델도 포함되어 있었으며, 51억(5.1B) 파라미터 모델은 27년 된 OpenBSD 버그의 익스플로잇 체인을 그대로 복원해 냈습니다.

기술적 인사이트

소프트웨어 엔지니어 관점에서 이 현상은 AI 능력의 ‘불규칙한 경계(Jagged Frontier)‘를 명확히 보여줍니다. 미토스 같은 거대 모델은 수십만 개의 파일 중 ‘어디를 봐야 할지’ 찾아내는 엔드투엔드(End-to-End) 탐색에 강점이 있습니다. 하지만 일단 의심스러운 코드가 특정되면, 그 안에서 취약점을 찾아내는 작업은 이미 소형 모델로도 충분히 가능한 ‘범용 기술(Commoditized)‘이 되었습니다. 오히려 단순한 SQL 인젝션 오탐(False-positive)을 걸러내는 기본 보안 추론 테스트에서는 소형 모델이 최신 프론티어 모델보다 더 나은 성능을 보이기도 했습니다. 이는 기술적인 트레이드오프를 시사합니다. 실행당 50달러가 넘는 무거운 모델 하나에 의존하기보다, 저렴하고 빠른 소형 모델 수천 개를 병렬로 돌려 코드베이스 전체를 스캔하고, ASan(AddressSanitizer) 같은 전통적인 도구로 AI의 환각(Hallucination)을 교차 검증하는 모듈식 파이프라인이 훨씬 경제적이고 효율적이라는 뜻입니다.

시사점

이러한 발견은 방어적 사이버 보안의 경제학을 완전히 뒤바꿉니다. 기업들은 굳이 접근이 제한된 고가의 최상위 AI 모델을 고집할 필요 없이, 오픈소스 소형 모델을 활용해 자체적인 자동화 버그 헌팅 시스템을 구축할 수 있습니다. 실제로 오픈소스 생태계에서는 이미 2025년 중반부터 이러한 모델 불가지론적(Model-agnostic) 시스템을 통해 OpenSSL 등에서 180개 이상의 CVE 취약점을 찾아 패치하고 있습니다. 다만 과대포장은 경계해야 합니다. 소형 모델은 인간이나 시스템이 먼저 코드를 잘라주지 않으면 저장소 전체를 훑어보는 능력이 아직 부족합니다. 결국 AI 보안 도구가 대중화됨에 따라 공격자와 방어자 모두 강력한 스캐너를 갖게 될 것이며, 취약점을 찾는 것보다 ‘발견된 취약점을 얼마나 빠르고 안전하게 자동 패치하느냐’가 기업의 진정한 보안 역량이 될 것입니다.


AI가 취약점 발견의 비용을 0에 가깝게 만들면서, 이제 병목 현상은 ‘발견’이 아닌 ‘분류와 수정’으로 이동하고 있습니다. 끝없이 쏟아지는 AI 발(發) 버그 리포트의 해일 속에서, 우리는 이 경고들을 자동으로 수정하고 메인테이너의 신뢰를 얻을 수 있는 시스템을 어떻게 설계해야 할까요?

참고문헌

프리랜서로 제품 기획과 개발을 맡길 파트너가 필요하신가요? 개인, 팀, 기업 누구나 의뢰할 수 있으며 문제 정의부터 출시까지 함께합니다.