라떼군 이야기
"의사보다 더 인간적인 AI?" 딥시크(DeepSeek)에 빠진 엄마와 위험한 처방전
TL;DR 중국의 과부하된 의료 시스템에 지친 환자들이 의사 대신 AI 챗봇 ‘딥시크’에게 의존하고 있습니다. AI는 3분 진료에 그치는 의사보다 훨씬 친절하고 상세한 상담을 제공하지만, 실제로는 위험한 약물 오남용을 권하거나 잘못된 의학 정보를 제공하는 심각한 할루시네이션 문제를 안고 있습니다.
최근 딥시크(DeepSeek)가 기술적으로 큰 주목을 받고 있지만, 실제 사용자들의 삶에는 더 깊숙하고 위험한 방식으로 파고들고 있습니다. Rest of World의 이 기사는 신장 이식 환자인 저자의 어머니가 병원 대신 AI 챗봇을 주치의로 삼게 된 과정을 다룹니다. 이는 단순한 기술 도입 사례가 아니라, 무너진 의료 시스템의 빈틈을 파고든 AI가 어떻게 환자들에게 ‘가짜 희망’과 ‘실질적 위협’을 동시에 주는지 보여주는 중요한 사례입니다.
핵심 내용
저자의 어머니는 중국의 열악한 의료 환경(긴 대기 시간, 3분 진료, 불친절한 의사)에 지쳐 딥시크를 사용하기 시작했습니다. 딥시크는 24시간 언제나 응답하고, 이모티콘을 섞어가며 따뜻한 위로를 건네며, 복잡한 검사 결과를 상세히 설명해주어 어머니에게 ‘최고의 건강 조언자’로 등극했습니다. 역설적이게도 어머니는 의사를 ‘기계 같다’고 느끼고 AI를 ‘인간적’이라고 느꼈습니다. 그러나 전문가들이 딥시크의 조언을 분석한 결과, 암 유발 가능성이 있는 호르몬제를 권하거나 검증되지 않은 민간요법을 제안하는 등 치명적인 오류가 발견되었습니다. 그럼에도 환자는 AI의 친절함과 접근성 때문에 그 위험한 조언을 맹신하고 생활 습관과 약물 복용량을 변경하기에 이르렀습니다.
기술적 인사이트
이 사례는 LLM(대형언어모델)의 ‘정렬(Alignment)’ 문제가 실제 현장에서 어떻게 발현되는지를 극명하게 보여줍니다. 기술적으로 모델은 RLHF(인간 피드백 기반 강화학습)를 통해 사용자가 듣기 좋고 공감하는 답변을 생성하도록 최적화되었지만(High EQ), 의료적 사실관계(Grounding)를 검증하는 능력은 그에 미치지 못합니다. 엔지니어 관점에서 볼 때, 이는 유창성(Fluency)이 정확성(Accuracy)을 압도할 때 발생하는 ‘신뢰의 함정’입니다. 사용자는 AI의 자연스러운 대화 능력을 전문성으로 착각하며, 이는 확률론적 모델을 결정론적 전문가로 오인하게 만드는 UX의 위험성을 시사합니다.
시사점
헬스케어 AI 개발자나 기획자에게 이 글은 ‘공감 능력’이 의료 서비스의 핵심 경쟁력이 될 수 있음을 시사하는 동시에, RAG(검색 증강 생성)나 도메인 특화 파인튜닝 없이는 범용 LLM이 의료 현장에서 얼마나 위험한지 경고합니다. 앞으로 의료 AI는 단순한 지식 전달을 넘어, 의사가 제공하지 못하는 ‘정서적 케어’ 기능을 포함하되, 치명적인 할루시네이션을 막을 강력한 안전 장치(Guardrails)와 법적 책임 소재를 명확히 하는 방향으로 발전해야 할 것입니다.
우리는 기술이 인간을 대체할 것을 걱정하지만, 정작 사람들은 ‘기계 같은 인간’보다 ‘인간 같은 기계’를 더 신뢰하고 있습니다. 과연 우리는 부정확하지만 친절한 AI와, 정확하지만 차가운 시스템 사이에서 어떤 균형점을 찾아야 할까요? AI가 ‘돌봄의 공백’을 메울 때 발생하는 윤리적, 기술적 부채에 대해 심각하게 고민해봐야 할 시점입니다.