오픈AI의 승부수 ‘챗GPT 헬스’는 약인가 독인가

최근 출시된 챗GPT 헬스는 의사를 대체할 수는 없지만, 무분별한 인터넷 검색보다는 더 나은 의료 정보 도구가 될 가능성을 보여주고 있다.

다음은 AI로 작성해 에디터가 검토한 본 기사의 요약이다.

오픈AI의 헬스케어 전략: 오픈AI는 이미 매주 2억 3,000만 명이 챗GPT에 건강 관련 질문을 던지고 있는 상황에서 ‘챗GPT 헬스(ChatGPT Health)’를 출시했다. 챗GPT 헬스는 별도의 신규 모델이 아니라 기존 모델을 기반으로 사용자가 허락할 경우 의료 기록과 운동 데이터를 불러올 수 있도록 설계된 서비스다.
구글 검색보다 나을까? 초기 연구 결과에 따르면 의료 정보 검색 부분에서 대형언어모델(LLM)이 기존의 웹 검색보다 더 나은 결과를 보일 가능성이 있다. 한 연구에서는 이전 모델인 GPT-4o가 실제와 유사한 건강 관련 질문에 약 85%의 정확도로 답변한 것으로 나타났는데 이는 검증되지 않은 인터넷 검색에 비해 잘못된 정보 노출을 줄일 수 있음을 시사한다.
환각(hallucination)에 대한 우려는 여전: 이전 버전의 GPT는 존재하지 않는 가짜 질병에 대한 설명을 만들어내거나 사용자의 질문에 포함된 잘못된 정보를 그대로 받아들이기도 했다. 사용자의 말에 과도하게 동조하는 이러한 ‘아부 성향’은 특히 사용자가 적절한 의학적 조언에 반하는 편견을 확인하려 할 때 더욱 위험할 수 있다.
신뢰 vs 전문성: 챗GPT의 또렷하고 자신감 있는 말투로 인해 사용자는 자격을 갖춘 의료 전문가보다 AI를 더 신뢰하게 될 수도 있다. 오픈AI는 챗GPT 헬스가 의사를 대체하는 것이 아니라 보조하는 용도라고 강조하지만 연구자들은 일부 환자들이 AI의 조언에 과도하게 의존할 가능성을 우려하고 있다.

지난 20여 년 동안 새로운 의학적 증상이 나타났을 때 사람들이 가장 먼저 하는 행동은 분명했다. 바로 ‘구글 검색’이다. 인터넷으로 의학 정보를 검색하는 일이 일상화되면서 구글에는 ‘닥터 구글(Dr. Google)’이라는 다소 비꼬는 별명까지 붙을 정도였다. 그러나 시대가 빠르게 바뀌고 있다. 이제 의료 정보를 찾는 많은 이용자들이 대형언어모델(LLM)을 활용하고 있다. 오픈AI에 따르면 매주 2억 3,000만 명이 챗GPT에 건강 관련 질문을 던지고 있다.

이러한 배경 속에서 오픈AI는 1월 초 의료·건강 질문에 특화된 새로운 대화형 AI 서비스 ‘챗GPT 헬스’를 출시했다. 출시 시점은 그다지 좋지 않았다. 출시 이틀 전, 미국의 뉴스 웹사이트 SF게이트(SFGate)는 지난해 약물 조합에 대해 챗GPT와 대화를 나누다 숨진 청소년 샘 넬슨(Sam Nelson)의 사례를 보도했다. 넬슨은 진통제와 항불안제 병용 방법을 챗GPT에 문의한 뒤 해당 조언을 참고해 약물을 함께 복용했고, 결국 치명적인 부작용으로 사망했다. 이 사건 이후 생성형 AI에 의료 조언을 구하는 행위의 위험성이 사회적 논쟁으로 떠올랐고, 여러 언론은 챗GPT와 같은 도구에 생명과 직결된 판단을 맡기는 것이 과연 타당한가에 대해 의문을 제기했다.

챗GPT 헬스는 기존 챗GPT와 분리된 사이드바 탭에 존재하지만 새로운 모델은 아니다. 오픈AI가 이미 보유한 모델 중 하나에 건강 관련 조언을 제공하는 데 사용할 수 있는 지침과 도구를 덧붙여 만든 서비스다(이런 방식은 기존 기술을 사용자가 더 사용하기 좋은 형태로 ‘포장(wrap)’하여 제공한다는 의미에서 ‘래퍼(wrapper)’라고 불린다). 챗GPT 헬스에는 사용자의 허락이 있을 경우 전자 의료 기록과 운동 앱 데이터에 접근할 수 있는 기능도 포함되어 있다. 챗GPT를 비롯한 대형언어모델(LLM)은 의학 정보와 관련해서 실수를 할 여지가 있기 때문에 오픈AI는 챗GPT 헬스가 의사를 대체하는 것이 아니라 보조 수단임을 강조한다. 그러나 의사가 없거나 충분한 도움을 주지 못하는 상황이라면 사람들은 다른 대안을 찾게 된다.

일부 의사들은 LLM이 의료에 대한 이해도를 높이는 데 도움이 될 수 있다고 생각한다. 일반 환자들은 방대한 온라인 의료 정보 속에서 원하는 정보를 찾기 어려울 수 있다. 특히 신뢰할 만한 정보와 겉보기엔 그럴듯하지만 사실과 다른 웹사이트를 구분하는 것이 쉽지 않을 수 있다. 그런 상황에서 이론적으로는 LLM이 그 역할을 대신할 수 있다는 것이다. 이에 대해 하버드 의대의 마크 수치(Marc Succi) 부교수는 “구글로 증상을 검색한 환자들을 진료할 때는 환자의 불안을 진정시키고 잘못된 정보를 바로잡느라 힘들었다”면서 “그러나 지금은 교육 수준과 상관없이 환자들이 의대 저학년이 할 법한 수준의 질문을 던진다”고 덧붙였다.

챗GPT 헬스의 출시와 클로드(Claude)에 건강 기능을 통합한다는 앤트로픽의 발표는 거대 AI 기업들이 자사 모델의 건강 관련 활용을 점점 더 적극적으로 인정하고 장려하고 있음을 보여준다. 물론 잘 알려진 바와 같이 LLM은 사용자의 말에 동조하고, 모른다고 인정하기보다는 정보를 지어내는 경향이 있어 건강과 관련하여 활용하기에는 분명 위험이 따른다.

그러나 이러한 위험은 잠재적 이점과 함께 고려해봐야 한다. 자율주행차를 생각해 보자. 정책 입안자들이 구글의 자율주행 계열사 웨이모의 자율주행차를 도시에서 허용할지 검토할 때 핵심 기준은 ‘사고가 전혀 없는가?’가 아니라 ‘인간 운전자가 차를 주행하는 기존 방식보다 피해가 적은가?’하는 점이다. 초기 연구들이 시사하는 바와 같이 챗GPT에 의료 조언을 구하는 것이 구글 검색보다 낫다면, 인터넷이 만들어낸 방대한 허위 의료 정보와 건강에 대한 불필요한 걱정을 줄이는 데 도움이 될 수도 있다.

그러나 챗GPT나 클로드와 같은 챗봇이 소비자 건강 분야에서 얼마나 효과적인지를 정확히 판단하는 일은 쉽지 않다. 매스 제너럴 브리검(Mass General Brigham) 병원 그룹의 대니엘 비터먼(Danielle Bitterman) 데이터 과학 및 AI 분야 임상 연구 총괄은 “답이 정해져 있지 않은 대화형 챗봇을 평가하는 것은 극히 어렵다”고 말했다. LLM은 의사 면허 시험에서 높은 점수를 받지만 이런 시험은 객관식으로 구성되어 있어 실제 사람들이 챗봇을 이용해 의료 정보를 찾는 방식과는 거리가 있다.

시리샤 람바틀라(Sirisha Rambhatla) 워털루 대학교 경영과학 및 공학과 조교수는 GPT-4의 실제 의료 판단 능력을 보다 엄격하게 평가하기 위해 객관식 보기 없이 의사 면허시험 문제에 어떻게 답하는지를 분석했다. 의료 전문가들이 GPT-4의 답변을 채점한 결과, 완전히 정확하다고 평가된 비율은 절반 수준에 그쳤다. 다만 연구진은 이러한 시험 방식 자체에도 한계가 있다고 지적했다.

의사 면허시험의 객관식 문항은 보기만 보고 정답을 추론하지 못하도록 의도적으로 까다롭게 설계돼 있으며, 이런 시험 문제는 이용자들이 실제로 챗GPT에 입력하는 일상적인 의료 질문과는 상당한 거리가 있다는 것이다. 즉, 시험 성적만으로 생성형 AI의 실제 의료 상담 능력을 단정하기는 어렵다는 의미다.

인간 자원자들이 제출한 보다 현실적인 질문을 기반으로 GPT-4o를 테스트한 또 다른 연구에서는 GPT-4o가 약 85%의 정확도로 의료 질문에 답한 것으로 나타났다. 해당 연구를 이끈 아물야 야다브(Amulya Yadav) 펜실베이니아 주립대학교 부교수는 의료 조언용 LLM을 좋아하지는 않는다고 분명히 말하면서도 “LLM이 기술적으로는 충분히 역할을 해내는 것처럼 보인다”고 인정했다. 그는 인간 의사 역시 10~15%의 확률로 오진을 한다는 점을 언급하며 “내 개인적인 감정을 배제하고 보면 내가 원하든 원하지 않든 세상은 변할 것 같다”고 말했다.

야다브 교수는 온라인에서 의료 정보를 찾는 사람들에게 LLM은 구글보다 나은 선택지일 수 있다고 말했다. 하버드 의대의 수치 교수 역시 GPT-4가 흔한 만성 질환에 대한 질문에 어떻게 답하는지를 구글의 지식 패널(검색 결과 오른쪽에 나타나는 정보 상자)과 비교한 결과, LLM이 인터넷 검색보다 더 나은 대안이 될 수 있다고 결론 내렸다.

2025년 상반기에 이러한 연구들이 온라인에 공개된 이후 오픈AI는 여러 새로운 GPT 버전을 출시했다. 따라서 최신 모델인 GPT-5.2는 이전 모델들보다 더 나은 성능을 보일 가능성이 크다. 다만 이 연구들에는 중요한 한계가 있다. 단순한 사실 확인 질문에 초점을 맞췄고, 사용자와 챗봇 또는 검색 도구 간의 짧은 상호작용만을 분석했다는 점이다. 그러나 LLM의 약점으로 꼽히는 ‘아부 성향(사용자에게 과도하게 동의하는 성향)’과 환각 현상은 더 길고 복잡한 대화에서, 그리고 더 복잡한 문제를 다루는 사용자에게서 두드러지게 나타날 수 있다.

멜버른 대학교에서 기술과 보건 분야를 연구하는 리바 레더먼(Reeva Lederman) 교수는 “의사의 진단이나 치료 권고가 마음에 들지 않는 환자들은 LLM에 다른 의견을 구할 가능성이 있는데 ‘아부 성향’이 있는 LLM은 환자에게 의사의 조언을 거부하라고 부추길 수 있다”고 지적했다.

실제로 일부 연구에서는 LLM이 건강 관련 질문에 대해 환각 현상과 아부 성향을 보인다는 사실이 확인됐다. 가령 한 연구에서는 GPT-4와 GPT-4o가 사용자 질문에 포함된 잘못된 약물 정보를 그대로 받아들이는 모습을 보였다. 또 다른 연구에서는 GPT-4o가 사용자 질문에 등장한 가짜 증후군이나 검사 항목에 대해 설명을 만들어내는 경우가 많았다. 인터넷에 의학적으로 의심스러운 진단과 치료법이 넘쳐나는 상황에서 LLM의 이러한 행동 패턴은 특히 사람이 LLM을 신뢰할 경우 허위 의료 정보 확산에 기여할 수 있다.

오픈AI는 GPT-5 계열 모델에서 아부 성향과 환각 현상이 이전보다 훨씬 줄었다고 밝힌 바 있다. 따라서 앞선 연구 결과들이 챗GPT 헬스에는 그대로 적용되지 않을 가능성도 있다. 또한 오픈AI는 지난해 자체 공개한 벤치마크인 헬스벤치(HealthBench)를 사용해 챗GPT 헬스를 구동하는 모델의 답변을 평가했다. 헬스벤치는 적절한 경우에 불확실함을 표현하고 필요할 경우 의료 기관 방문을 권고하며 실제보다 상태를 과장해 불필요한 불안을 유발하지 않는 모델을 높이 평가한다. 오픈AI의 발표를 보면 테스트에서 챗GPT 헬스의 기반 모델이 이런 행동을 보였을 것으로 추정할 수 있다. 그러나 비터먼 연구 총괄은 “헬스벤치에 포함된 일부 질문은 실제 사용자가 아니라 LLM이 생성한 것이므로 해당 벤치마크 결과를 현실에 그대로 적용하기에는 한계가 있을 수밖에 없다”고 지적했다.

과도한 불안을 유발하지 않는 LLM은 단 몇 분간의 검색만으로 스스로 암에 걸렸다고 확신하게 만드는 기존 인터넷 검색에 비하면 분명한 개선으로 보인다. LLM과 이를 기반으로 한 제품들이 계속 발전하면서 구글 검색보다 ‘챗GPT의 의료 조언’이 갖는 우위가 더 커질 가능성이 크다. 챗GPT 헬스의 출시는 분명 그 방향으로 향하는 한 걸음이다. 챗GPT는 사용자의 의료 기록을 살펴봄으로써 구글 검색보다 사용자의 건강에 관해 훨씬 더 많은 상황을 파악할 수 있다(물론 개인정보 보호 문제를 이유로 이런 접근을 경계하는 전문가들도 적지 않다).

그러나 챗GPT 헬스와 다른 새로운 도구들이 의료 정보와 관련해서 구글 검색보다 의미 있는 개선을 이뤘다 하더라도 전반적인 보건 측면에는 부정적인 영향을 미칠 가능성도 배제할 수 없다. 자율주행차가 인간이 운전하는 차보다 안전하더라도 그로 인해 대중교통 이용이 줄어든다면 사회 전체로는 손해가 될 수 있듯이 LLM 역시 온라인에서 이용 가능한 의료 정보의 질을 높이더라도 그로 인해 사람들이 인간 의사 대신 인터넷에 의존하게 된다면 사용자들의 건강에는 악영향을 미칠 수 있다.

레더먼 교수는 이런 시나리오가 충분히 가능하다고 생각한다. 그의 연구에 따르면 건강을 주제로 하는 온라인 커뮤니티 회원들은 정보의 타당성과 무관하게 말을 잘하는 사람을 신뢰하는 경향이 있다. 챗GPT도 말을 잘하기 때문에 일부 사람들은 의사를 배제한 채 챗GPT를 지나치게 신뢰할 수도 있다. 그러나 LLM은 분명 인간 의사를 대체할 존재는 아니다. 적어도 아직까지는 그렇다.

The post 오픈AI의 승부수 ‘챗GPT 헬스’는 약인가 독인가 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.