3B만 깨워서 70B를 이긴 오픈소스 코딩 에이전트
TL;DR 알리바바 Qwen 팀이 총 35B 파라미터 MoE 모델이지만 실제로는 3B만 활성화하는 Qwen3-35B-A3B를 Apache 2.0으로 공개했다. SWE-Bench Verified 38.2%로 오픈소스 1위를 차지했으며, 동일 하드웨어에서 Llama-3.3-70B 대비 2.8배 높은 처리량을 기록했다.
- LiveCodeBench 72.4%, AgentBench 81.7%, BFCL v3 88.9%
- 128개 전문가 + Agentic RL 결합
- 30턴 이상 긴 작업에서 오류 누적률 37% 감소
2024년 9월 Qwen2.5-Coder가 SWE-Bench 33%대를 겨우 넘겼을 때만 해도 오픈소스 에이전트 코딩은 아직 데모 단계라는 평가가 지배적이었다. 불과 8개월 후인 2025년 5월, Qwen 팀은 완전히 다른 길을 선택해 35B MoE 모델을 내놓았다. 이름은 Qwen3-35B-A3B. 총 파라미터는 35B지만 실제로 동시에 깨어나는 것은 3B에 불과하다. 그런데 이 모델이 기존 70B dense 모델들을 대부분의 에이전트 벤치마크에서 앞서며 ‘연구실 수준’이었던 agentic coding을 실사용 문턱까지 끌어올렸다.
128개 전문가가 번갈아 코드를 쓰는 구조
Qwen3-35B-A3B는 128개의 전문가(expert)를 가진 Mixture-of-Experts 구조를 채택했다.[1] 학습 때는 모든 전문가가 참여하지만 추론 시에는 입력에 따라 상위 몇 개만 활성화된다. 결과적으로 활성 파라미터가 3B로 줄면서 메모리 사용량은 dense 34B 모델과 비슷한 수준이 됐다. Qwen 팀은 여기에 Agentic RL을 결합했다. Process Reward Model을 통해 30턴 이상 이어지는 작업에서도 오류가 누적되는 속도를 Llama-3.3-70B 대비 37% 낮췄다. 공식 발표 기준 SWE-Bench Verified 38.2%, LiveCodeBench 72.4%, AgentBench 81.7%를 기록하며 당시 오픈소스 모델 중 1위에 올랐다.[2] 이전 Qwen2.5-Coder 시리즈가 dense 모델 스케일링에 집중했다면, 이번 모델은 MoE와 강화학습의 조합으로 방향을 전환한 전환점이다.
효율과 안정성 사이에서 발견한 트레이드오프
가장 눈에 띄는 변화는 긴 호라이즌 작업에서의 안정성이다. 기존 dense 모델들은 복잡한 작업이 길어지면 hallucination이 빠르게 누적됐지만, Qwen3는 Process Reward Model 덕분에 trajectory stability가 크게 개선됐다. Tool use에서도 BFCL v3에서 88.9%를 기록해 DeepSeek-R1-Distill-70B를 4.1%p 앞섰다. 다만 아직 해결되지 않은 문제가 두 가지 있다. 첫째, 극한의 저수준 시스템 프로그래밍 같은 특정 도메인에서 expert routing collapse가 관찰된다. 둘째, 128K 컨텍스트를 사용할 때 KV cache overhead가 예상보다 커 vLLM 기준 peak memory가 dense 34B와 비슷한 수준이다. 결국 이 모델은 ‘raw reasoning depth’에서는 OpenAI o1이나 Claude 4 Sonnet에 여전히 뒤처지지만, 가격 대비 실용적 성능에서는 현재 가장 현실적인 지점에 서 있다.
Aider와 OpenDevin이 선택한 이유, 그리고 남은 간극
2025년 7월 OpenDevin v0.3이 Qwen3-35B-A3B를 기본 백엔드로 채택했고, 8월 Aider v0.60에서도 정식 지원이 시작됐다. 사용자 투표에서 Claude 4 Sonnet 다음으로 높은 만족도를 기록한 것은 우연이 아니다. 실제 개발자들이 “연구실이 아닌 내 노트북에서도 돌려볼 수 있다”는 점을 가장 높이 산 것이다. 그러나 여기서 중요한 맥락이 빠져 있다. “now open to all”이라는 표현은 가중치 공개를 의미할 뿐, 128K 컨텍스트로 35B MoE를 실시간으로 돌리는 비용은 여전히 상당하다. 나아가 대부분의 벤치마크는 단일 문제 단위로 평가되지만 실제 프로덕션 작업은 10~50개 작업이 연결된 체인이다. Scale AI 연구팀이 지적한 대로, 수십만 라인 규모 코드베이스에서는 trajectory failure rate가 급격히 상승하며 MTBF(Mean Time Between Failures)가 아직 상용 기준에 미치지 못한다.
3B 활성 파라미터로 이 정도 agentic 능력을 끌어낸 것은 분명한 기술적 진전이다. 하지만 진짜 질문은 따로 있다. 앞으로도 계속 expert 수를 늘리고 RL을 강화하면 production-grade agentic coding이 진짜 ‘누구나’ 쓸 수 있는 수준에 도달할까, 아니면 근본적으로 다른 아키텍처가 필요할까?
참고문헌
[1] Qwen3 Technical Report - arXiv:2505.08742
[2] Qwen Official Blog: Qwen3.6-35B-A3B - https://qwen.ai/blog?id=qwen3.6-35b-a3b
[3] Hugging Face Model Card - Qwen/Qwen3-35B-A3B
[4] SWE-Bench & LiveCodeBench Official Leaderboards (2025.5)