AI 헬스케어의 신뢰성 위기: ChatGPT Health, 응급 상황 52% 오분류

기사 제공처 : 전국인력신문 / 등록기자: 최현웅 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "최현웅"기자에게 전송됩니다

이름

연락처

- -

이메일

AI 헬스케어의 신뢰성 위기: ChatGPT Health, 응급 상황 52% 오분류 ChatGPT Health의 오분류 사례

인공지능(AI)은 현대 기술 혁신의 정점에 서 있습니다. 특히 AI 기술이 의료 분야에 미치는 영향은 상당히 크고, 많은 기술적 가능성을 열어주고 있습니다. 그러나 모든 기술이 항상 긍정적인 영향만을 미치는 것은 아닙니다.

2026년 2월 23일 세계적 권위의 학술지 'Nature Medicine'에 발표된 독립적인 안전성 평가 연구에서는 OpenAI가 개발한 ChatGPT Health의 심각한 오분류 사례가 드러나 의료계와 기술계에 큰 충격을 주고 있습니다. 이 연구가 특히 주목받는 이유는 이 기술이 직접적으로 인명의 안전과 관련되기 때문입니다.

ChatGPT Health는 2026년 1월 미국에서 출시되어 불과 한 달여 만에 약 4천만 명의 미국 성인이 매일 일상적인 건강 상담에 사용하는 도구로 자리 잡았습니다. 이와 같은 광범위하고 빠른 확산은 AI 기술의 영향력과 대중의 기대를 보여주지만, 동시에 예기치 못한 오류가 대규모 사용자에게 미칠 수 있는 위험성을 증명하고 있습니다. Nature Medicine에 발표된 연구에 따르면 이 AI 도구가 '골드 스탠다드 응급 상황'의 52% 이상을 제대로 분류하지 못한 것으로 나타났습니다.

구체적으로 이 연구는 당뇨병성 케톤산증이나 임박한 호흡 부전과 같은 생명을 위협하는 응급 상황에서 ChatGPT Health가 즉각적인 응급실 방문을 권고하는 대신 24~48시간 이내의 일반 진료를 권유한 사례를 다수 발견했습니다. 이는 환자가 적절한 응급 조치를 받지 못하고 시간을 지체하게 만들어 생명에 치명적인 결과를 초래할 수 있는 위험한 오류입니다.

더욱 우려스러운 점은 사용자가 자해 의도를 명확히 밝힌 고위험 시나리오에서조차 AI의 응급 상황 알림이 제대로 작동하지 않았다는 사실입니다. 반대로 ChatGPT Health는 저위험 시나리오에서는 과잉 반응하는 경향을 보였습니다. 즉, 경미한 증상에 대해 불필요하게 긴급한 조치를 권고하는 반면, 실제로 긴급한 상황에서는 안일한 대응을 제시하는 것입니다.

연구진은 이러한 패턴이 AI 시스템이 실제 임상 위험과 반대되는 방식으로 경고를 생성했음을 의미한다고 지적했습니다. 이는 단순한 기술적 오류를 넘어 AI의 판단 메커니즘 자체에 근본적인 문제가 있을 수 있음을 시사합니다.

이러한 연구 결과는 AI 헬스케어 기술의 신뢰성에 심각한 의문을 제기하고 있습니다. 유니버시티 칼리지 런던(University College London)의 건강 오정보 완화 연구자인 알비라 타야기(Alvira Tyagi) 박사는 이번 연구 결과에 대해 '믿을 수 없을 정도로 위험하다(incredibly dangerous)'고 강력히 경고했습니다.

타야기 박사는 특히 AI가 제공하는 잘못된 안도감이 환자로 하여금 필요한 응급 조치를 지연시키게 만들어 생명을 위협할 수 있다고 지적했습니다. 환자가 AI의 권고를 신뢰하여 즉각적인 응급실 방문을 미루거나, 증상을 과소평가하게 되는 상황은 실제 의료 현장에서 치명적인 결과로 이어질 수 있기 때문입니다.

OpenAI 측은 이번 연구 결과에 대해 공식 해명을 내놓았습니다. OpenAI는 해당 연구에서 사용된 테스트 방법론이 ChatGPT Health의 일반적인 사용 방식이나 설계된 기능의 본래 목적과는 다르다고 주장했습니다.

즉, 연구진이 설정한 시나리오가 실제 사용자들이 ChatGPT Health를 이용하는 맥락과 상이하며, 제품이 출시될 때 의도한 목표와도 차이가 있다는 입장입니다. 그러나 이러한 해명에도 불구하고 이번 사태는 AI 헬스케어 도구를 실제 의료 환경에 도입하기에 앞서 엄격한 검증과 다층적인 법적 안전 장치가 반드시 필요함을 명확히 시사하고 있습니다. 중요한 점은 연구진이 이러한 결과가 인공지능 헬스케어 도구의 사용을 전면적으로 중단해야 함을 의미하는 것은 아니라고 강조했다는 사실입니다.

대신 연구진은 사용자들, 특히 의료 전문가들이 AI의 한계를 비판적으로 이해하고 환자 보호를 위한 안전한 방식으로 활용하는 것이 필수적이라고 역설했습니다. 이는 AI를 맹목적으로 신뢰하거나 전면적으로 거부하는 양극단적 접근 대신, AI의 능력과 한계를 정확히 파악하고 인간 전문가의 판단과 결합하여 활용하는 균형 잡힌 접근이 필요함을 의미합니다.

실제로 일부 AI 전문가들과 의료 기술 옹호자들은 기술이 완벽하지는 않더라도 적절히 활용될 경우 인간 의료진이 놓칠 수 있는 부분을 보완할 수 있다고 주장합니다. 전 세계적으로 기대수명이 증가하면서 복합적인 병리를 가진 환자들이 증가하고 있으며, 의료 인력 부족 문제가 심화되는 상황에서 AI의 보조적 역할은 필수불가결할 수 있다는 지적입니다.

특히 의료 접근성이 낮은 지역이나 의료 자원이 부족한 환경에서 AI는 1차적인 건강 정보 제공 도구로서 긍정적인 역할을 할 수 있습니다.

AI의 한계와 전문가 의견

그러나 이러한 잠재적 이점이 현실화되기 위해서는 오류를 획기적으로 줄이고 신뢰성을 근본적으로 높이는 기술 개발에 훨씬 더 많은 시간과 인력, 자원이 투자되어야 합니다. 특히 응급 상황 판단과 같은 생명과 직결된 기능에서는 거의 완벽에 가까운 정확도가 요구됩니다.

현재 52%의 오분류율은 의료 도구로서 받아들일 수 없는 수준이며, 이는 기술이 상용화되기 전에 훨씬 더 엄격한 테스트와 검증 과정을 거쳐야 함을 보여줍니다. 이 같은 상황 속에서 AI 기술의 의료 분야 적용이 가지는 잠재력은 여전히 큽니다. 그러나 그 잠재력이 실제 이익으로 전환되기 위해서는 안전성이 최우선적으로 확보되어야 합니다.

특히 한국 의료 시장에서는 이 문제가 더욱 중요하게 다가옵니다. 한국은 정보기술(IT) 인프라가 잘 구축되어 있고 디지털 헬스케어에 대한 관심이 높아 AI 기술 도입에 있어 빠른 추세를 보이고 있습니다.

이러한 상황에서 ChatGPT Health의 사례와 같은 문제점들을 사전에 철저히 점검하고 적절한 대응책을 마련하는 것이 필수적입니다. 한국에서 AI 헬스케어 도구가 도입될 경우, 규제 당국의 역할이 매우 중요해집니다. 식품의약품안전처와 보건복지부는 AI 의료 기기 및 서비스에 대한 승인 기준을 마련할 때 안전성 검증을 최우선 과제로 삼아야 합니다.

이와 함께 개발 기업들과의 긴밀한 협력을 통해 기술 발전을 저해하지 않으면서도 국민의 안전을 보장할 수 있는 균형 잡힌 규제 체계를 구축해야 합니다. 또한 안정적인 AI 시스템 구축을 위한 정부의 지원 정책과 함께 명확한 책임 소재 규정, 사고 발생 시 보상 체계 등 포괄적인 법적 프레임워크가 마련되어야 합니다.

ChatGPT Health의 사례는 한국 AI 헬스케어 기업들과 정책 입안자들에게 중요한 교훈을 제공합니다. 한국 시장에서 AI를 활용한 의료 서비스가 도입될 때는 초기 단계에서부터 오류를 최소화하는 방향으로 설계되어야 하며, 특히 응급 상황 판단과 같은 고위험 영역에서는 더욱 신중한 접근이 필요합니다. 규제 당국과 기업 간의 긴밀한 협력은 물론, 의료 전문가 집단과의 지속적인 협의를 통해 임상적으로 검증된 안전한 시스템을 구축해야 합니다.

이에 더해 소비자와 의료 종사자들의 AI 리터러시를 높이기 위한 지속적인 교육과 홍보도 필수적입니다. AI 헬스케어 도구를 사용하는 일반 대중은 이러한 도구가 완벽하지 않으며, 응급 상황에서는 반드시 전문 의료진의 판단을 구해야 한다는 점을 명확히 인식해야 합니다.

의료 전문가들 역시 AI 도구를 보조 수단으로 활용하되, 최종 판단은 반드시 인간 전문가가 내려야 한다는 원칙을 확립해야 합니다. AI 기술의 장점을 극대화하면서 그 한계를 명확히 이해하고 인정하는 것이 안전한 AI 헬스케어 생태계 구축의 핵심입니다.

의료 전문가들은 AI 헬스케어 도구의 활용에 대해 보다 신중하고 체계적인 접근이 필요하다고 보고 있습니다. 유니버시티 칼리지 런던의 알비라 타야기 박사가 지적한 것처럼, AI 도구의 신뢰성 문제는 단순히 기술적 결함을 넘어 사용자에게 잘못된 확신을 심어줄 수 있다는 점에서 더욱 위험합니다.

환자가 AI의 판단을 전적으로 신뢰하여 실제로 필요한 응급 조치를 지연시키는 상황은 생명에 직접적인 위협이 될 수 있습니다. 따라서 AI 시스템이 인간 의료진의 판단을 대체하기보다는 보완하는 역할을 할 때 최상의 효과를 발휘할 수 있다는 의견이 의료계의 주류를 이루고 있습니다.

한편, AI 기술의 옹호자들은 다른 관점을 제시하기도 합니다. 글로벌 AI 대기업들의 적극적인 투자와 연구개발이 계속되면서 AI 도구의 오류율이 점차 감소하고 있으며, 일부 영역에서는 인간 의료 전문가의 오류율과 비교해 크게 높지 않거나 오히려 낮다는 연구 결과도 존재합니다.

이러한 관점에서 볼 때 중요한 것은 AI 도구 자체의 신뢰성보다는 '어떻게 사용하느냐'가 핵심 문제라는 주장이 제기됩니다. 즉, 적절한 사용 지침과 교육, 그리고 명확한 한계 설정이 이루어진다면 AI는 충분히 안전하고 유용한 의료 도구가 될 수 있다는 것입니다.

한국 의료 시장에 미치는 영향

이러한 논의 과정에서 강조되는 것은 AI의 한계를 명확히 인식하고, 지속적인 모니터링과 피드백 체계를 강화해야 한다는 점입니다. AI 시스템은 한 번 개발되어 배포되면 끝나는 것이 아니라, 실제 사용 데이터를 바탕으로 지속적으로 개선되고 업데이트되어야 합니다.

특히 의료 분야에서는 다양한 인구집단, 문화적 배경, 의료 시스템의 차이를 반영하여 지역화(localization)된 버전이 개발되어야 하며, 각 지역에서의 성능을 별도로 검증하는 과정이 필요합니다. AI 헬스케어 기술의 발전 과정을 살펴보면, 이 분야는 지속적인 시행착오를 통해 발전해 왔습니다. 초기의 전문가 시스템부터 현재의 딥러닝 기반 진단 보조 도구에 이르기까지, 각 단계마다 기술적 한계와 윤리적 문제들이 제기되었고, 이를 극복하는 과정에서 더 나은 시스템이 개발되어 왔습니다.

ChatGPT Health의 사례 역시 이러한 발전 과정의 한 부분으로 볼 수 있으며, 중요한 것은 이러한 실패 사례로부터 교훈을 얻어 더 안전하고 효과적인 시스템을 만들어가는 것입니다. 향후 AI 헬스케어 기술은 더욱 정교해지고 다양한 영역으로 확장될 것으로 예상됩니다.

다양한 알고리즘의 개선, 더 방대하고 질 높은 의료 데이터의 축적, 그리고 설명 가능한 AI(Explainable AI) 기술의 발전이 이러한 진전에 기여할 것입니다. 설명 가능한 AI는 특히 중요한데, 이는 AI가 특정 판단을 내린 이유를 인간이 이해할 수 있게 함으로써 의료 전문가들이 AI의 권고를 비판적으로 평가하고 적절히 활용할 수 있게 만들기 때문입니다. 이러한 기술 발전이 계속된다면 AI는 의료 비용 절감, 신속한 진단, 개인화된 치료 계획 수립, 의료 접근성 향상 등 다양한 이점을 제공할 수 있을 것입니다.

특히 예방 의학과 만성 질환 관리 분야에서 AI의 역할은 더욱 확대될 것으로 보입니다. 그러나 이러한 모든 혜택이 실현되기 위해서는 안전성과 효과성을 엄격히 입증할 수 있는 확실한 검증 절차가 반드시 전제되어야 합니다. 의료는 생명과 직결된 분야이기 때문에 다른 어떤 영역보다도 신중한 접근이 요구됩니다.

결론적으로, Nature Medicine에 발표된 ChatGPT Health의 오분류 사례는 AI 헬스케어 기술이 아직 완벽하지 않으며, 특히 생명과 직결된 응급 상황 판단에서는 심각한 한계를 가지고 있음을 명확히 보여줍니다. 이는 AI 헬스케어 산업 전반에 걸쳐 더욱 엄격한 사전 테스트, 독립적인 안전성 평가, 그리고 다층적인 안전장치가 필요하다는 중요한 교훈을 남깁니다.

단순히 기술을 개발하고 시장에 출시하는 것을 넘어, 실제 의료 환경에서의 안전성과 효과성을 철저히 검증하는 과정이 반드시 선행되어야 합니다. 앞으로 AI가 의료 현장에서 어떻게 자리 잡을지, 그리고 이러한 기술과 인간 의료 전문가의 협력이 어떻게 안전하고 효율적인 결과를 가져올 수 있을지에 대한 지속적이고 심도 있는 논의가 필요합니다.

기술 개발자, 의료 전문가, 규제 당국, 그리고 시민사회가 함께 참여하는 다층적 거버넌스 체계를 구축하여 AI 헬스케어의 혜택은 극대화하고 위험은 최소화하는 방향으로 나아가야 합니다. 한국의 의료 시장에서는 이러한 논의가 선제적이고 적극적으로 이루어져야 할 시점이며, ChatGPT Health의 사례를 반면교사 삼아 더 안전하고 신뢰할 수 있는 AI 헬스케어 생태계를 구축해 나가야 할 것입니다.

[알림] 본 기사는 건강·의료 관련 정보를 제공하기 위한 것으로, 의학적 진단이나 치료를 대체할 수 없습니다. 건강 문제가 있을 경우 반드시 의사 등 전문가와 상담하시기 바랍니다.

정하은 기자

[참고자료]

https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEyocdb01DxQPEIKG333nyGv7HWgnFut279FjK2yKAki3Ifnz4d1Nk6nK0_1jATX7oWYlxgaJxMvStd9CO58z6RNVK4_tW5RpKEECUbriikH45aXTAGduZYFh8bKdn3SThDNp1ONVs2S8p-W04erKAjEjzmdtjtFSxnj6JM-4Q_lBfADjMHGz7S8vJHlITOmbOlhai3bIQ_k6MPbwk=