라떼군 이야기
연구 결과: "AI가 스스로 생성한 에이전트 스킬은 무용지물이다"
TL;DR 사람이 정교하게 설계한 ‘에이전트 스킬’은 LLM의 성능을 평균 16.2%p 향상시키지만, AI가 스스로 생성한 스킬은 효과가 없다는 연구 결과입니다. 잘 설계된 스킬을 장착한 소형 모델은 스킬 없는 대형 모델과 맞먹는 성능을 보여줍니다.
LLM 에이전트 시스템을 구축할 때, 모델에게 특정 작업을 수행하는 절차적 지식인 ‘스킬(Skills)‘을 주입하는 방식이 널리 쓰이고 있습니다. 하지만 과연 이 스킬들이 실제로 도움이 될까요? 그리고 모델이 스스로 필요한 스킬을 정의하게 해도 괜찮을까요? 2026년 발표된 ‘SkillsBench’ 논문은 7,300여 개의 궤적을 분석하여 이에 대한 충격적이고도 명확한 해답을 제시합니다.
핵심 내용
연구진은 11개 도메인, 86개 태스크에서 ‘스킬 없음’, ‘사람이 만든(Curated) 스킬’, ‘자가 생성(Self-generated) 스킬’ 세 가지 조건을 비교했습니다. 결과적으로 사람이 큐레이팅한 스킬은 평균 16.2%p의 성능 향상을 가져왔으나, 도메인별 편차(헬스케어 +51.9%p vs SW엔지니어링 +4.5%p)가 컸습니다. 가장 중요한 발견은 모델이 스스로 생성한 스킬은 평균적으로 아무런 성능 이득을 주지 못했다는 점입니다. 또한, 방대한 문서보다 핵심 모듈 2~3개로 구성된 ‘집중된 스킬’이 더 효과적이었으며, 스킬을 장착한 소형 모델이 스킬 없는 대형 모델의 성능을 따라잡을 수 있음이 증명되었습니다.
기술적 인사이트
이 연구는 LLM의 ‘소비 능력’과 ‘생산 능력’의 비대칭성을 명확히 보여줍니다. 모델은 주어진 절차적 지식(스킬)을 따라 문제를 해결하는 것(Consuming)은 잘하지만, 그 해결 절차 자체를 구조화하여 작성하는 것(Authoring)에는 서투릅니다. 기술적으로 볼 때, 이는 RAG(검색 증강 생성)나 툴 유즈(Tool Use)와는 또 다른 차원의 인사이트입니다. 단순히 정보를 주는 것이 아니라 ‘생각하는 순서’를 강제하는 것이 성능 향상의 핵심이며, SW 엔지니어링처럼 이미 논리적인 도메인보다 헬스케어처럼 절차적 엄밀성이 필요한 분야에서 그 효과가 극대화됨을 알 수 있습니다.
시사점
실무 개발자들에게 주는 메시지는 명확합니다. 에이전트 시스템을 자동화하겠다고 ‘스킬 생성’까지 모델에게 맡기는 것은 시기상조입니다. 대신 도메인 전문가가 검증한 고품질의 스킬 라이브러리를 구축하는 데 리소스를 집중해야 합니다. 또한, 비용 효율성을 위해 거대 모델(LLM)을 사용하는 대신, 잘 정의된 스킬셋과 함께 경량화 모델(SLM)을 도입하는 것이 성능과 비용 두 마리 토끼를 잡는 전략이 될 수 있습니다.
결국 AI 에이전트의 성능은 모델 자체의 지능뿐만 아니라, 인간이 얼마나 정교한 ‘매뉴얼(스킬)‘을 쥐여주느냐에 달려 있습니다. 모델이 스스로 자신의 매뉴얼을 완벽하게 작성하는 ‘Self-Evolving’ 단계에 도달하기 전까지는, 인간의 개입과 큐레이션이 여전히 핵심 경쟁력일 것입니다.