기대와 현실의 간극…여전히 한계 드러낸 GPT-5

오픈AI는 GPT-5를 다양한 분야에서 활용할 수 있다고 강조한다. 그러나 AI 모델을 이용해 건강과 관련된 문제에 관한 조언을 구하는 것은 여전히 위험한 일이다.

샘 올트먼(Sam Altman) 오픈AI CEO는 8월 초 GPT-5를 공개하기 전에 “GPT-5를 보니 내 능력이 AI에 비해 쓸모없는 것처럼 느껴졌다”고 말했다. 그러면서 이번 GPT-5를 개발하면서 원자폭탄 개발자들이 느꼈을 법한 부담감을 느꼈다고도 했다.

기술 대기업들이 경쟁하듯 유사한 기능을 갖춘 모델들을 내놓고 있는 상황에서 오픈AI의 신제품은 AI의 새로운 지평을 엿볼 기회를 제공할 것으로 기대를 모았다. 그 새로운 지평이란 AI 기술 옹호자들이 인류의 미래를 더 나은 방향으로 변화시킬 것이라고 믿는 ‘범용인공지능(AGI)’으로 향하는 도약을 의미했다.

그러나 이러한 기대와 달리 GPT-5는 그다지 큰 놀라움을 주지 못했다.

사람들은 GPT-5의 응답에서 눈에 띄는 문제점들을 지적하며, 제품 출시 당시 올트먼 CEO가 했던 “GPT-5는 필요한 어떤 분야에서든 박사급 전문가처럼 작동한다”는 주장을 반박했다. 초기 테스트에 참여한 사람들도 오픈AI가 주장했던 “GPT-5는 복잡한 질문에는 추론 모델, 단순한 질문에는 더 빠른 모델을 적용하는 등 질문에 가장 적합한 AI 모델 유형을 자동으로 판단한다”는 기능에 문제점이 있음을 발견했다. 올트먼 CEO도 이 기능에 문제가 있으며 사용자의 선택권을 빼앗는다는 점을 인정하는 듯했다. 하지만 나쁜 소식만 있는 것은 아니다. GPT-5는 챗GPT가 사용자에게 과도하게 아부하는 문제를 완화한 것으로 보인다. 실제로 GPT-5는 사용자에게 과도한 칭찬을 퍼붓는 경향이 덜하다.

필자의 동료인 그레이스 허킨스(Grace Huckins)가 다른 기사에서 지적했듯이 이번 GPT-5는 결론적으로 AI의 가능성을 재정의하는 혁신보다는 챗GPT와의 대화를 더 매끄럽게 다듬은 제품 업데이트에 가깝다.

그러나 여기서 한 가지 더 주목할 점이 있다. 한동안 AI 기업들은 AI 모델의 활용처를 제시하는 데 큰 노력을 기울이지 않았다. 그저 마치 ‘두뇌’처럼, 가능한 한 가장 똑똑한 모델을 만들면 그 모델이 다양한 분야에서 자연스럽게 놀라운 성능을 보이게 될 것이라고 믿었다. 따라서 규모가 더 큰 모델을 만들어서 더 나은 방식으로 학습시키고 기술적 돌파구를 찾아내야 한다고 생각했다.

하지만 상황이 바뀌고 있다. 이제 기업들은 자사의 AI 모델이 특정 분야에서 뛰어난 성능을 보일 수 있다고 홍보한다. 예를 들어 일부 기업은 AI 모델이 코딩 분야에서 인간 개발자를 대체할 수 있다고 적극적으로 주장한다. 기업들이 이런 식으로 태도를 전환한 이유는 기대했던 기술적 혁신을 찾아내지 못했기 때문일 수 있다. 결국 당분간 대형언어모델(LLM)의 발전은 기존 모델의 성능을 미미하게 개선하는 수준에 머무를 가능성이 크다. 이런 상황에서 AI 기업들이 택할 수 있는 선택지는 ‘현재 가진 것을 최대한 활용하는 것’뿐이다.

GPT-5 출시에서도 이러한 변화가 두드러지게 나타났다. 오픈AI는 AI 활용 분야 중 가장 우려가 많은 분야인 ‘건강에 관한 조언’을 구하는 데 GPT-5를 사용하도록 적극 장려하고 있다.

처음에 오픈AI는 AI를 의료 관련 질문에 활용하는 것을 권장하지 않았다. 챗GPT는 건강에 관한 질문을 받으면 AI 모델은 의사가 아니라고 경고하는 많은 면책 조항을 표시했고, 일부 질문에 대해서는 아예 답변을 거부하기도 했다. 그러나 최근 필자가 보도했듯이 오픈AI가 새 모델을 출시하면서 이러한 면책 조항들이 점차 사라지기 시작했다. 이제 오픈AI의 모델들은 엑스레이나 유방촬영결과를 해석할 뿐만 아니라 진단을 위한 후속 질문들을 던지기도 한다.

5월 오픈AI는 의료 관련 질문에 직접 대응할 계획임을 드러냈다. 오픈AI는 AI 시스템이 의사들의 의견과 비교해 건강 관련 주제를 얼마나 잘 처리하는지 평가하는 방법인 ‘헬스벤치(HealthBench)’를 발표했다. 7월에는 케냐의 의사들이 AI 모델의 도움을 받은 경우에 진단 오류가 줄어들었다는 연구 결과를 발표했다.

오픈AI는 GPT-5를 출시하면서 사용자들에게 건강 관련 조언을 얻는 데 AI 모델을 활용하라고 적극 권장하기 시작했다. 올트먼 CEO는 출시 행사에서 오픈AI의 직원인 펠리페 밀론(Felipe Millon)과 그의 아내인 캐롤리나 밀론(Carolina Millon)을 무대로 초대했다. 캐롤리나는 최근 여러 종류의 암 진단을 받은 상태였다. 무대에서 캐롤리나는 챗GPT에 진단에 대한 도움을 요청했다고 밝혔다. 생검 결과를 챗GPT에 업로드해 어려운 의학 용어들에 대한 설명을 요청했고, 방사선 치료를 받을지 여부와 같은 결정에 대해 AI의 조언을 구했다고 밝혔다. 올트먼 CEO와 밀론 부부는 챗GPT를 이런 식으로 활용함으로써 의사와 환자 간의 지식 격차를 줄일 수 있다고 강조했다.

이처럼 접근 방식을 바꾸면서 오픈AI는 위험한 영역에 발을 들이고 있다.

우선 오픈AI는 케냐에서 진행한 연구에서처럼 의사들이 AI를 임상 도구로 활용해 이점을 얻을 수 있다는 증거를 바탕으로 의학적 지식이 없는 사용자들이 AI 모델에 건강에 관한 조언을 구해야 한다고 제안한다. 문제는 많은 사람들이 AI 모델의 조언을 의사에게 확인도 받지 않고 그대로 받아들일 수 있다는 점이다. (게다가 요즘은 챗봇이 ‘조언 내용을 의사에게 꼭 상담하라’고 거의 말하지 않기 때문에 사람들이 의사와 상담할 가능성은 더 줄어들고 있다.)

실제로 GPT-5 출시 이틀 전 미국의 내과학회 공식 저널인 <내과학연보(Annals of Internal Medicine)>에는 챗GPT와 대화 후 소금 섭취를 중단하고 대신 브롬화나트륨을 위험한 양까지 섭취한 한 남성의 사례를 다룬 논문이 발표됐다. 이 남성은 1970년대 미국 식품의약국(FDA)이 일반 의약품에서 브롬화물 사용을 제한한 후 미국에서 거의 사라진 질병인 ‘브롬중독증’에 걸려 사망할 뻔했고, 병원에서 몇 주간 치료를 받아야 했다.

그렇다면 이 모든 이야기의 핵심은 무엇일까? 바로 ‘책임’ 문제다. AI 기업들이 의료와 같은 특정 분야에서 AI가 인간과 비슷한 도움을 줄 수 있다고 주장할 경우, ‘실수가 발생하면 어떤 일이 벌어질 것인가?’라는 또 다른 의문이 생긴다. 그러나 현재로서는 AI 모델로 인해 피해가 발생한다 해도 기술 기업들이 책임을 질 것이라는 조짐은 거의 없다.

이와 관련해 노스캐롤라이나 대학교 샬럿 캠퍼스의 데이미언 윌리엄스(Damien Williams) 데이터 과학 및 철학 부교수는 “의사들이 오류나 편향된 편견으로 인해 유해한 의료 조언을 제공할 경우 의료 과실로 소송을 제기하여 보상받을 수 있다”고 설명했다.

이어서 윌리엄스 교수는 “그러나 챗GPT가 편향된 학습 데이터나 AI 시스템의 고질적 문제인 ‘환각’ 현상으로 인해 유해한 의료 조언을 제공할 경우에는 어떻게 보상받을 수 있을까?”라는 의문을 제기했다.

The post 기대와 현실의 간극…여전히 한계 드러낸 GPT-5 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.