라떼군 이야기
"절반은 응급실에 가지 말라고?" ChatGPT 헬스의 치명적인 오진과 AI 안전성 문제
TL;DR 최근 네이처 메디슨에 발표된 연구에 따르면, ChatGPT 헬스는 실제 응급 상황의 절반 이상에서 병원 방문을 권장하지 않는 치명적인 오류를 보였습니다. 특히 환자의 부가적인 맥락(예: 정상 검사 결과)이 추가되면 자살 충동과 같은 위기 상황의 안전장치가 무력화되는 프롬프트 취약성도 드러나 의료 AI의 안전성에 적신호가 켜졌습니다.
생성형 AI가 일상으로 스며들면서 매일 4,000만 명 이상이 ChatGPT에 건강 관련 조언을 구하고 있습니다. 이에 발맞춰 OpenAI는 의료 기록과 웰니스 앱을 연동하는 ‘ChatGPT 헬스(ChatGPT Health)’ 기능을 선보였지만, 생명과 직결된 의료 분야에서의 AI 도입은 완전히 다른 차원의 문제입니다. 최근 발표된 첫 독립 안전성 평가 결과는, 우리가 AI를 의료 보조 도구로 신뢰하기 전에 해결해야 할 심각한 결함들을 적나라하게 보여줍니다.
핵심 내용
연구진이 60개의 실제 환자 시나리오를 바탕으로 테스트한 결과, 즉각적인 응급실 방문이 필요한 상황의 51.6%에서 ChatGPT 헬스는 자택 대기나 일반 진료 예약을 권장했습니다. 뇌졸중 같은 전형적인 응급 상황은 잘 파악했지만, 호흡 부전의 초기 징후를 보이는 천식 환자에게는 치료를 미루라고 조언하는 등 복잡한 상황에서 취약점을 드러냈습니다. 더욱 충격적인 것은 자살 충동을 호소하는 환자의 프롬프트에 ‘정상적인 혈액 검사 결과’라는 문맥을 추가하자, 위기 개입 배너가 단 한 번도 나타나지 않았다는 점입니다. 또한 가상의 ‘친구’가 심각하지 않다고 말했다는 내용을 프롬프트에 넣으면 증상을 과소평가할 확률이 12배나 높아지는 등, 외부 맥락에 의해 AI의 임상적 판단이 쉽게 흔들리는 모습을 보였습니다.
기술적 인사이트
소프트웨어 엔지니어링 관점에서 이 연구는 범용 LLM(대형 언어 모델)의 ‘어텐션(Attention) 메커니즘’이 가진 치명적인 한계를 보여줍니다. 모델이 프롬프트 내의 모든 토큰에 가중치를 분산시키다 보니, ‘정상적인 랩 결과’나 ‘친구의 안심시키는 말’ 같은 노이즈 데이터가 ‘자살 충동’이나 ‘호흡 곤란’이라는 핵심 트리거의 가중치를 희석시켜버린 것입니다. 이는 텍스트 기반의 패턴 매칭에 의존하는 룰베이스(Rule-based) 가드레일이나 단순한 프롬프트 엔지니어링만으로는 엣지 케이스(Edge case)를 완벽히 방어할 수 없음을 의미합니다. 의료 도메인에서는 재현율(Recall, 응급 상황을 놓치지 않는 것)이 정밀도(Precision, 과잉 진료를 줄이는 것)보다 압도적으로 중요하지만, 현재의 모델은 이러한 의료적 트레이드오프를 전혀 반영하지 못하고 있습니다.
시사점
이 사건은 헬스케어, 금융 등 고위험(High-stakes) 도메인에서 AI 서비스를 개발할 때 범용 API를 그대로 가져다 쓰는 것이 얼마나 위험한지 경고합니다. 개발자들은 모델의 응답에만 의존할 것이 아니라, 입력값을 사전에 필터링하는 전용 분류기(Classifier)나 도메인 특화된 외부 지식 베이스(RAG)를 결합한 다중 안전 아키텍처를 설계해야 합니다. 또한, 규제 당국과 업계는 AI 모델의 투명성을 요구하고, 서드파티에 의한 독립적인 레드팀(Red-teaming) 및 안전성 감사 프로세스를 필수적으로 도입해야 할 시점입니다.
AI가 의료 접근성을 높여줄 혁신적인 도구임은 분명하지만, ‘그럴듯한 오답’이 누군가의 생명을 앗아갈 수 있다는 사실을 잊어서는 안 됩니다. 우리는 과연 완벽하게 통제 불가능한 블랙박스 모델에게 인간의 생명과 직결된 판단을 어디까지 위임할 수 있을까요?