철회된 연구도 인용하는 AI 챗봇, 과학계 신뢰를 흔들다

일부 AI 모델이 철회된 논문의 내용을 답변에 활용하는 것으로 드러나자 모델 개발사들이 대응에 나서고 있다.

일부 AI 챗봇이 철회된 과학 논문을 답변에 활용하고 있다는 연구 결과가 나왔다. MIT 테크놀로지 리뷰가 확인한 이번 결과는 AI 도구가 과학 연구를 평가하는 데 얼마나 신뢰할 수 있는지에 대한 의문을 제기한다. 또 과학자용 AI 도구 개발에 투자하려는 각국 정부와 산업계의 계획을 복잡하게 만들 수 있다.

AI 검색 도구와 챗봇이 링크나 참고문헌을 조작할 수 있다는 건 이미 잘 알려져 있다. 그러나 실제 논문을 기반으로 한 답변이라도 해당 논문이 철회되었다면 잘못된 정보를 확산할 수 있다. 테네시 대학교 멤피스 캠퍼스 의학 연구자로서 최근 발표된 관련 연구 중 하나를 저술한 웨이콴 구(Weikuan Gu)는 “챗봇은 실제 논문과 실제 자료를 사용해 답변을 제공하지만 사용자가 답변 내용만 보고 참고 논문을 직접 확인하지 않아 철회 사실을 놓친다면 큰 문제가 될 수 있다”고 지적했다.

구와 그의 연구팀은 오픈AI의 GPT-4o 모델에 기반한 챗GPT에 의학 영상과 관련된 철회 논문 21편의 정보를 바탕으로 질문을 던졌다. 그 결과 챗봇은 5건의 답변에서 철회 논문을 참조했지만, 그중 단 3건에서만 주의가 필요하다고 알려줬다. 다른 질문에서는 철회되지 않은 논문을 인용했으나 연구팀은 챗봇이 철회 여부를 인지하지 못했을 가능성이 있다고 지적했다. 이후 8월 발표된 다른 연구에서는 여러 연구팀이 챗GPT-4o 미니를 사용해 다양한 과학 분야의 철회 논문과 부실 논문 217편을 평가했지만 챗봇이 응답 중 해당 논문의 철회 사실이나 문제점을 언급한 경우는 단 한 건도 없었다(8월 출시된 GPT-5에 대해서는 아직 유사한 연구가 공개되지 않았다).

대중은 의료 상담이나 건강 상태 진단을 위해 AI 챗봇을 사용하기도 한다. 학생과 연구자들도 과학용 AI 도구를 활용해 기존 연구 문헌을 검토하고 논문을 요약하는 사례가 점점 늘고 있다. 이러한 활용은 앞으로 더 활성화될 것으로 보인다. 일례로 미국 국립과학재단(NSF)은 올해 8월 과학 연구용 AI 모델 구축에 7,500만 달러(약 1,046억 원)를 투자했다.

위안시 푸(Yuanxi Fu) 일리노이 대학교 어바나-샴페인 캠퍼스 정보과학 연구원은 “대중이 사용하는 AI 도구의 경우, 논문 철회 여부를 일종의 품질 지표로 활용하는 것이 매우 중요하다”고 강조했다. 그녀는 “철회된 논문은 과학 기록에서 삭제된 것으로 간주한다는 일종의 합의가 존재한다”며 “과학계 외부에 있는 사람들에게도 반드시 해당 논문이 철회되었음을 알려야 한다”고 덧붙였다. 한편 오픈AI는 논문 결과에 대한 논평 요청에 응하지 않았다.

문제는 챗GPT에만 국한되지 않는다. 지난 6월 MIT 테크놀로지 리뷰는 구 연구팀이 사용한 철회 논문 21편을 기반으로 엘리시트(Elicit), Ai2 스콜라QA(Ai2 ScholarQA, 현재 앨런 인공지능 연구소의 아스타(Asta) 도구에 통합됨), 퍼플렉시티(Perplexity), 컨센서스(Consensus)와 같은 연구용 AI 도구들을 테스트했다. 그 결과, 엘리시트는 5편, Ai2 스콜라QA는 17편, 퍼플렉시티는 11편, 컨센서스는 18편의 철회 논문을 참조했지만, 철회 사실을 명시한 경우는 하나도 없었다.

이후 일부 기업은 문제 해결에 나섰다. 크리스티안 살렘(Christian Salem) 컨센서스 공동 창업자는 “최근까지 자사 검색 엔진에는 철회 논문 데이터가 충분하지 않았다”고 밝혔다. 현재 컨센서스는 출판사, 데이터 집계기관, 자체 웹 자동 탐색·수집 시스템(web crawling), 리트랙션 워치(Retraction Watch) 등 다양한 출처를 조합해 철회 정보를 확인하고 있다. 특히 리트랙션 워치는 사람이 논문 철회 사례를 직접 선별하고 데이터베이스로 정리해 관리한다. 8월에 동일 논문을 대상으로 다시 진행한 테스트에서는 컨센서스가 인용한 철회 논문 수가 5편으로 크게 줄었다.

엘리시트는 MIT 테크놀로지 리뷰와의 인터뷰에서 “오픈알렉스(OpenAlex) 학술 데이터베이스에서 철회 논문으로 표시된 자료는 자사 데이터베이스에서 삭제하고 있다”면서도, “철회 논문 출처들을 종합하는 작업은 아직 진행 중”이라고 밝혔다. Ai2는 자사 도구가 현재 철회 논문을 자동으로 걸러내거나 삭제하지 못한다고 인정했으며, 퍼플렉시티는 “답변이 100% 정확하다고 주장한 적은 없다”고 해명했다.

그러나 철회 논문 데이터베이스에 의존하는 것만으로는 충분하지 않을 수 있다. 이반 오란스키(Ivan Oransky) 리트랙션 워치(Retraction Watch) 공동 설립자는 자사 데이터베이스를 포괄적이라고 표현하는 데 조심스러운 입장을 보이며, “완전한 데이터베이스를 만들기 위해서는 사실상 누구도 감당할 수 없을 정도의 자원이 필요하다”고 주장했다. 그는 “정확성을 보장하려면 결국 사람이 모든 과정을 직접 확인해야 하므로 엄청난 자원이 소요된다”고 덧붙였다.

더 큰 문제는 출판사마다 철회 사실을 공지하는 방식이 제각각이라는 점이다. 케이틀린 베커(Caitlin Bakker) 캐나다 리자이나 대학교 연구 및 검색 도구 전문가는 “철회 사실은 매우 다양하게 표시될 수 있다”고 설명했다. 실제로 출판사들은 연구 논문에 ‘정정(Correction)’, ‘우려 표명(Expression of concern)’, ‘정오표(Erratum)’, ‘철회(Retracted)’ 등 여러 라벨을 추가할 수 있으며, 그 이유도 내용, 연구 방법론 및 데이터에 대한 우려나 이해 충돌 가능성 등으로 다양하다.

또한 일부 연구자들은 논문을 출판 전 논문(preprint) 서버, 논문 저장소 등 다양한 웹사이트에 배포하기 때문에 그 사본이 인터넷 곳곳에 흩어져 있다. AI 모델 학습에 사용된 데이터도 최신 버전이 아닐 수 있다. 푸는 “논문이 모델 학습 기준일 이후 철회되면 그 사실이 모델의 답변에 즉각 반영되지 않을 수 있다”고 설명했다. 에런 테이(Aaron Tay) 싱가포르 경영대학교 사서는 “대부분의 학술 검색 엔진은 철회 여부를 실시간으로 확인하지 않기 때문에 사용자는 결국 해당 검색 엔진이 보유한 논문 데이터의 정확도에 의존할 수밖에 없다”고 지적했다.

오란스키를 포함한 전문가들은 AI 모델이 답변을 생성할 때 활용할 수 있는 맥락 정보를 늘려야 한다고 주장한다. 즉, 학술지에서 진행한 동료평가 기록이나 퍼브피어(PubPeer)와 같은 평가 사이트의 비평 등 이미 존재하는 출판 관련 정보를 논문과 함께 공개하는 것이다.

네이처(Nature), BMJ와 같은 학술 출판사는 대부분 철회 공지를 해당 논문과 연결된 별도의 기사로 발행하며, 이를 유료 결제 없이 누구나 열람할 수 있도록 공개하고 있다. 푸는 기업들이 이러한 정보와 모델 학습 데이터에 포함된 논문 철회 관련 뉴스 기사까지 효과적으로 활용해야 한다고 강조했다.

AI 도구의 사용자와 개발자는 AI로부터 제공받은 정보를 주의 깊게 검증할 책임이 있다. 테이는 “AI 기술은 아직 매우 초기 단계이므로 우리는 기본적으로 회의적인 시각을 유지해야 한다”고 당부했다.

이 글을 쓴 아난야(Ananya)는 인도 벵갈루루에 거주하는 과학 기술 분야 프리랜서 기자다.

The post 철회된 연구도 인용하는 AI 챗봇, 과학계 신뢰를 흔들다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.