코덱스가 거의 모든 것을 집어삼킬까
TL;DR 2021년 OpenAI Codex가 HumanEval에서 28.8%를 기록한 뒤 의료·법률·생물학 분야까지 ‘Codex for X’ 실험이 폭발적으로 늘었지만, 2024년 기준 ‘almost everything’은 과장된 전망이다. Med-PaLM 2가 MedQA에서 86.5%를 달성하고 GitHub Copilot 사용자 130만 명을 넘겼으나, hallucination 검증과 고품질 도메인 데이터 부족이 핵심 장벽으로 남았다.
- Generalist 모델(Claude 3.5 Sonnet, o1)이 대부분의 Specialist 오픈소스 모델을 앞서는 상황
- 법률·생물학 분야에서는 Harvey AI, Recursion Pharma가 대규모 투자를 유치
- 데이터 프라이버시와 기계적 검증 불가능 영역이 가장 큰 현실적 한계
2021년 7월 OpenAI가 Codex를 발표했을 때만 해도 개발자 커뮤니티는 충격에 빠졌다. 자연어로 설명만 하면 코드를 뱉어내는 모델이 HumanEval 벤치마크에서 28.8%라는 당시 기준으로는 놀라운 성적을 냈기 때문이다. 그 충격은 곧 “그렇다면 법률은? 의료는? 생물학은?”이라는 질문으로 번졌다. 3년이 지난 지금, 우리는 그 질문에 대한 실험 결과를 어느 정도 볼 수 있게 됐다. 그리고 결론은 예상보다 훨씬 복잡하다.
Codex가 시작한 전문 AI 실험의 성적표
OpenAI Codex는 159GB 규모의 GitHub 공개 코드를 학습해 코드라는 ‘도메인 특화 언어’로 자연어를 번역하는 데 성공했다 [1]. 이 모델은 곧 GitHub Copilot으로 이어졌고, 2023년 기준 130만 명 이상의 개발자가 사용 중이며 Fortune 500 기업의 절반 이상이 도입했다. 개발자들이 제안된 코드를 실제로 받아들이는 비율은 30~46%에 달한다.
이에 앞서 Google은 Med-PaLM 2를 통해 의료 영역에 같은 전략을 적용했다. USMLE 스타일의 MedQA에서 86.5% 정확도를 기록하며 당시 GPT-4를 앞섰다 [2]. DeepMind의 AlphaCode는 Codeforces 대회에서 상위 54% 수준을 보여 프로그램 합성의 가능성을 입증했다.
이렇듯 2021년 Codex의 성공은 단순한 코드 도구를 넘어 ‘도메인 코퍼스로 계속 학습하면 전문가 수준 AI를 만들 수 있다’는 가설을 실험하게 만들었다. 2024년 현재 Llama 3.1 405B, Claude 3.5 Sonnet, OpenAI o1까지 이어지는 흐름의 출발점이었다.
하나의 거대 모델이냐, 수많은 전문 코덱스냐
범용 모델(GPT-4o, Claude 3.5 Sonnet, Llama-3.1 405B)은 하나의 모델로 여러 도메인을 빠르게 넘나들 수 있다는 장점이 크다. 특히 OpenAI o1처럼 reasoning을 강화한 모델은 복잡한 코딩과 과학 문제를 풀 때 기존 모델보다 큰 폭으로 향상됐다 [3].
반면 전문 모델은 Continued Pre-training이나 Heavy Fine-tuning으로 특정 도메인에서 peak performance를 내는 데 유리하다. Med-PaLM 2가 대표적이다. 그러나 데이터 수집 비용이 어마어마하고, 의료·법률 데이터는 프라이버시와 라이선스 문제가 따라붙는다. 게다가 catastrophic forgetting(기존 지식 망각) 현상도 무시할 수 없다.
흥미로운 점은 2024년 현재 코드 영역에서는 Claude 3.5 Sonnet과 o1 같은 generalist가 대부분의 오픈소스 specialist 모델을 앞서고 있다는 사실이다. 이는 ‘모든 분야에 specialist가 필요하다’는 초기 가정을 다시 생각하게 만든다. 결국 중요한 것은 Mixture-of-Experts와 Router, Tool use를 결합한 하이브리드 아키텍처로 보인다.
실제 돈이 몰리는 곳과 아직 남은 깊은 골짜기
법률 분야에서는 Harvey AI와 EvenUp이 Series C·D 단계에서 대규모 투자를 유치하며 실용화 단계에 들어섰다. 생물학·화학 분야에서는 Recursion Pharma와 Insilico Medicine이 LLM과 실험 로봇을 결합한 ‘Biological Codex’ 실험을 가속하고 있다 [4].
다만 여기서 진짜 문제는 검증이다. 코드는 컴파일러와 테스트 케이스로 correctness를 기계적으로 확인할 수 있지만, 의료 진단이나 법률 판단, 과학 가설은 그렇지 않다. Galactica 사례처럼 전문가 수준으로 보이는 hallucination이 오히려 더 위험할 수 있다.
나아가 희귀 질환, 최신 판례, 고급 실험 데이터처럼 고품질 학습 자료가 극도로 부족한 영역에서는 scaling law 자체가 적용되기 어렵다. Yann LeCun이 지적한 대로 autoregressive LLM이 현실의 인과관계와 물리적 세계 모델을 제대로 만들지 못한다는 근본적 한계도 여전히 남아 있다.
Codex가 거의 모든 것을 다루는 시대가 정말 올까, 아니면 수많은 전문 코덱스와 이를 조율하는 orchestrator가 공존하는 세상이 될까. 더 근본적으로, AI가 특정 전문 영역을 깊이 파고들수록 인간 전문가의 진짜 가치는 어디로 이동할지, 지금이 그 질문을 진지하게 던져야 할 때다.
참고문헌
[1] OpenAI - Evaluating Large Language Models Trained on Code - https://arxiv.org/abs/2107.03374
[2] Google Research - Med-PaLM 2 Technical Report - https://arxiv.org/abs/2305.09617
[3] OpenAI - o1 System Card - https://openai.com/index/o1-system-card/
[4] Meta AI - Llama 3.1 Technical Report - https://ai.meta.com/blog/meta-llama-3-1/
[5] GitHub - Octoverse 2023 & 2024 - https://github.com/octoverse
[6] Codex for almost everything - https://openai.com/index/codex-for-almost-everything/