챗GPT 이후 3년…오픈AI, 이제 ‘과학’에 베팅하나

최근 출범한 오픈AI의 과학 전담 조직 ‘오픈AI 포 사이언스’를 이끄는 케빈 웨일 부사장과 단독 인터뷰를 진행했다.

2022년 오픈AI의 챗GPT가 처음 공개된 이후 3년이 지났다. 그 사이 생성형 인공지능(AI)은 우리의 일상 깊숙이 파고들었다. 집, 직장, 학교 등 장소를 가리지 않고 인터넷이나 스마트폰을 사용하는 거의 모든 순간에 이 기술이 활용되고 있다.

이제 오픈AI는 과학 연구 현장으로도 무대를 넓히고 있다. 지난해 10월 오픈AI는 자사 대형언어모델(LLM)을 과학 연구에 어떻게 활용할 수 있을지 모색하고, 연구자들이 쓰기 쉽게 다듬는 전담 조직 ‘오픈AI 포 사이언스(OpenAI for Science)’를 출범시켰다.

최근 몇 달 사이 수학자, 물리학자, 생물학자 등 여러 연구자가 LLM, 특히 GPT-5가 새로운 발견에 실질적인 도움을 주었거나, 미처 보지 못했던 해법을 찾는 데 기여했다고 밝힌 사례가 각종 소셜미디어와 학술 논문을 통해 잇따라 나오고 있다. 오픈AI 포 사이언스는 이런 연구자들과의 협력을 본격화하기 위해 만들어진 조직이기도 하다.

다만 오픈AI가 이 분야를 처음 연 것은 아니다. 구글 딥마인드는 이미 수년 전부터 알파폴드(AlphaFold), 알파이볼브(AlphaEvolve) 같은 과학 특화 AI 모델을 선보이며 과학 분야 전담 연구팀을 운영해 왔다.

2023년 필자가 데미스 허사비스(Demis Hassabis) 구글 딥마인드 최고경영자(CEO)와 인터뷰했을 당시, 그는 이 팀에 대해 “내가 딥마인드를 시작한 이유이자 평생 AI 분야에서 일해 온 이유”라고 말했다.

그렇다면 오픈AI는 왜 지금 이 시점에 과학에 힘을 싣는 것일까. 과학 연구 지원은 오픈AI가 내세워 온 더 큰 목표와 어떻게 이어질까. 그리고 이 회사가 실제로 이루고자 하는 바는 무엇일까.

필자는 새롭게 출범한 오픈AI 포 사이언스 팀을 이끌고 있는 케빈 웨일(Kevin Weil) 오픈AI 부사장과 단독 인터뷰를 갖고 이러한 질문을 던졌다.

사명을 내세운 행보

웨일은 제품 분야에서 커리어를 쌓아 온 인물이다. 몇 년 전 오픈AI에 최고제품책임자(CPO)로 합류했고, 그전에는 트위터와 인스타그램에서 제품 총괄을 맡았다. 그러나 출발점은 과학자였다. 스탠퍼드대학교에서 입자물리학 박사 과정을 3분의 2가량 마친 뒤 학계를 떠나 실리콘밸리로 진로를 틀었다. 그는 자신의 과학자 출신 이력을 자주 언급하곤 한다. 웨일은 “평생 물리학 교수가 될 줄 알았다”며 “지금도 휴가를 가면 수학책을 읽는다”고 말했다.

오픈AI 포 사이언스가 기존의 사무직 생산성 도구나 화제를 모았던 영상 생성 앱 소라(Sora)와 어떤 관련이 있느냐는 질문에 그는 오픈AI가 줄곧 강조해 온 사명을 되풀이하며 “우리의 목표는 범용인공지능(AGI)을 개발해 전 인류에게 이롭게 쓰이도록 하는 것”이라고 말했다.

웨일은 이 기술이 과학에 미칠 잠재적 영향을 강조했다. 그는 “새로운 의약품과 새로운 소재, 새로운 장치를 떠올려 보라”며 “현실의 본질을 이해하는 데 도움을 주고 아직 풀리지 않은 문제를 함께 고민하는 데도 기여할 수 있다”고 말했다. 이어 “AGI가 가져올 가장 크고 긍정적인 영향은 과학 발전을 가속하는 데서 나올지도 모른다”고 덧붙였다.

그는 GPT-5를 통해 그런 가능성이 현실에 가까워지는 모습을 봤다고 했다. 웨일에 따르면 이제 LLM은 과학 연구의 협업자로 활용할 수 있을 만큼 충분히 발전했다. 다양한 아이디어를 제안하고 새로운 연구 방향을 제시하는 것은 물론, 수십 년 전 생소한 학술지나 외국어로 발표된 연구 속 해법을 현재의 문제와 연결해 주는 역할까지 할 수 있다는 설명이다.

불과 1년 전만 해도 상황은 달랐다. 오픈AI가 2024년 12월 이른바 ‘추론 모델’을 처음 공개한 이후 변화의 속도가 빨라졌다. 추론 모델은 문제를 여러 단계로 나눠 하나씩 풀어 가는 방식의 LLM이다. 이 모델이 등장한 뒤 오픈AI는 기술의 한계를 빠르게 끌어올려 왔다. 그 결과 LLM은 수학과 논리 문제를 푸는 능력에서 과거와 비교하기 어려울 만큼 성능이 향상됐다. 웨일은 “몇 년 전만 해도 모델이 미국 대학입시 SAT 시험에서 800점을 받았다는 사실만으로도 모두가 충격을 받았다”고 말했다.

이후 LLM은 수학 경시대회 문제를 풀고 대학원 수준의 물리학 문제까지 해결하는 단계로 올라섰다. 지난해 오픈AI와 구글 딥마인드는 각각 자사 LLM이 세계에서 가장 어려운 수학 대회 가운데 하나인 국제수학올림피아드에서 금메달 수준의 성과를 냈다고 발표했다. 웨일은 “이제 이 모델들은 단지 대학원생의 90%보다 뛰어난 수준이 아니라, 인간 능력의 최전선에 서 있다고 봐야 한다”고 말했다.

물론 이런 평가는 다소 신중하게 받아들일 필요가 있다. 그럼에도 추론 모델을 포함한 GPT-5가 복잡한 문제 해결 능력에서 GPT-4보다 크게 향상됐다는 점은 분명하다. 박사 수준의 생물학, 물리학, 화학 지식을 묻는 400개 이상의 객관식 문항으로 구성된 업계 벤치마크 GPQA 기준으로 보면, GPT-4의 점수는 39%에 그쳐 인간 전문가 평균인 약 70%에 크게 못 미친다. 반면 지난해 12월 공개된 최신 업데이트 버전 GPT-5.2의 점수는 92%에 이른다.

과열된 기대

기대감은 분명하다. 어쩌면 지나칠 정도다. 지난해 10월 웨일을 포함한 오픈AI 고위 인사들은 X에 “GPT-5가 여러 미해결 수학 문제의 해법을 찾아냈다”고 밝혔다. 그러나 수학자들은 곧 GPT-5가 실제로 한 일은 과거 연구 논문에 이미 실려 있던 해법을 찾아낸 것에 가깝다고 지적했다. 그 가운데에는 독일어로 쓰인 논문도 있었다. 분명 유용한 성과였지만 오픈AI가 처음에 암시한 수준과는 거리가 있었다. 결국 웨일과 동료들은 해당 게시물을 삭제했다.

이제 웨일은 훨씬 신중해졌다. 이미 존재하지만 잊힌 해답을 찾아내는 것만으로도 충분히 의미가 있다는 입장이다. 그는 “우리는 모두 앞선 세대의 업적 위에 서 있다”며 “LLM이 그런 지식을 모아 우리가 이미 해결된 문제에 시간을 낭비하지 않게 해 준다면 그 자체로도 과학 발전을 앞당기는 일”이라고 말했다.

웨일은 LLM이 곧 판도를 바꿀 완전히 새로운 발견을 내놓을 것이라는 기대에는 선을 그었다. 언젠가는 가능해질지 모르지만 아직 모델이 그 단계에 이르렀다고는 생각하지 않는다는 것이다.

다만 그것이 목표는 아니라는 점도 분명히 했다. 그는 “우리의 목표는 과학을 가속하는 것”이라며 “과학 발전의 기준이 반드시 아인슈타인처럼 한 분야 전체를 새로 쓰는 수준일 필요는 없다고 본다”고 말했다.

그에게 핵심은 다른 데 있다. 그는 “과학자들이 모델을 활용했을 때 혼자 일할 때보다 더 많은 일을 더 빠르게 해낼 수 있는지가 중요하다”며 “그 변화는 이미 시작됐다고 생각한다”고 말했다.

지난해 11월 오픈AI는 사내외 연구자들이 참여한 사례 연구를 공개했다. 이들은 GPT-5를 어떻게 활용했고 어떤 도움을 받았는지를 소개했다. 웨일은 “대부분의 사례는 이미 연구에 GPT-5를 직접 활용하던 과학자들이 이 모델을 통해 이룬 성과를 우리에게 알려온 것”이라고 말했다.

웨일에 따르면 GPT-5가 특히 잘하는 일은 연구자들이 현재 다루는 문제와 과거에 발표된 연구 사이의 숨은 연결고리를 찾아내는 것이다. 이는 때때로 새로운 아이디어로 이어진다. 또 수학적 증명의 뼈대를 잡는 일을 돕고, 가설을 실험실에서 어떻게 검증할지 방법을 제안하는 데도 유용하다.

웨일은 “GPT-5.2는 지난 30년 동안 발표된 거의 모든 논문을 학습했다”며 “특정 연구 분야에 국한되지 않고 전혀 다른 분야의 유사점까지 끌어올 수 있다”고 말했다. 그는 이어 “이는 매우 강력한 능력”이라며 “인접 분야의 협력자를 찾는 것은 가능하지만 관련 있을 수 있는 모든 분야마다 협력자를 두는 것은 사실상 불가능하다”고 말했다. 또 “모델은 밤에도 쉬지 않고 함께 일할 수 있고, 여러 질문을 동시에 던질 수도 있다”며 “이는 사람에게는 쉽지 않은 방식”이라고 덧붙였다.

연구에 쓰이기 시작한 LLM

오픈AI가 접촉한 과학자들 대다수는 웨일의 주장에 힘을 실었다.

로버트 쉐러(Robert Scherrer) 밴더빌트대학교 물리·천문학 교수는 한동안 챗GPT를 그저 재미로만 써 왔다. 그는 “예전에 미국의 오래된 TV 코미디 ‘길리건의 섬(Gilligan’s Island)’ 주제가를 고대 영어 서사시 ‘베오울프(Beowulf)’ 스타일로 다시 쓰게 해 본 적이 있는데 아주 잘 해냈다”고 말했다.

그러다 현재 오픈AI에서 일하고 있는 밴더빌트대학교 동료 물리학자 알렉스 룹사스카(Alex Lupsasca)로부터 GPT-5가 자신이 붙들고 있던 문제 해결에 도움을 줬다는 이야기를 듣고 생각이 바뀌었다. 룹사스카는 쉐러에게 월 200달러짜리 GPT-5 프로 프리미엄 구독 서비스를 사용할 수 있게 해줬다. 쉐러는 “나와 대학원생이 몇 달 동안 붙잡고도 풀지 못한 문제를 GPT-5가 해결했다”고 말했다.

물론 완벽하지는 않다. 쉐러는 “GPT-5도 여전히 어이없는 실수를 한다”며 “물론 인간도 실수를 하지만 GPT-5의 실수는 더 엉뚱할 때가 있다”고 말했다. 그럼에도 그는 이 기술이 계속 발전하고 있다고 본다. 쉐러는 “지금 같은 흐름이 이어진다면 머지않아 모든 과학자가 LLM을 쓰게 될 것”이라고 말했다.

비영리 연구기관 잭슨연구소의 데리아 우누트마즈(Derya Unutmaz) 생물학 교수는 면역계를 연구하는 과정에서 GPT-5를 아이디어 구상, 논문 요약, 실험 설계에 활용하고 있다. 오픈AI와 공유한 사례 연구에서 그는 과거 한 차례 분석했던 데이터세트를 GPT-5로 다시 살펴봤고, 그 결과 새로운 통찰과 해석을 얻었다. 우누트마즈는 “LLM은 이미 과학자들에게 필수 도구가 됐다”며 “이전에는 수개월이 걸리던 데이터세트 분석을 훨씬 빠르게 끝낼 수 있다면 더 이상 사용하지 않을 이유가 없다”고 말했다.

니키타 지보토브스키(Nikita Zhivotovskiy) 캘리포니아대학교 통계학자는 첫 번째 챗GPT가 공개된 이후 줄곧 연구에 LLM을 활용해 왔다. 그는 쉐러와 마찬가지로 LLM이 자신의 연구와 과거 연구 성과 사이의 뜻밖의 연결고리를 찾아줄 때 가장 유용하다고 본다. 그는 “LLM은 과거 컴퓨터와 인터넷처럼 과학자들에게 필수적인 기술 도구가 되어 가고 있다”며 “이를 사용하지 않는 연구자들은 장기적으로 불리해질 것”이라고 말했다.

다만 그는 “LLM이 조만간 완전히 새로운 발견을 해낼 것이라고 기대하지는 않는다”며 “그 자체로 논문이 될 만한 새로운 아이디어나 논증은 거의 보지 못했다”고 밝혔다. 그는 이어 “지금까지는 기존 연구 결과를 결합하는 데 그치는 경우가 많고, 때로는 잘못 결합하기도 한다”고 덧붙였다.

필자는 오픈AI와 무관한 과학자들에게도 의견을 물었다.

앤디 쿠퍼(Andy Cooper) 리버풀대학교 화학 교수이자 레버훌름 기능성 소재 설계 연구센터(Leverhulme Research Centre for Functional Materials Design) 소장은 비교적 신중한 입장을 보였다. 그는 “아직 LLM이 과학 연구 방식 자체를 근본적으로 바꾸고 있다고 보기는 어렵다”면서도 “최근 연구 결과를 보면 분명 역할을 할 수 있는 부분은 있다”고 말했다.

쿠퍼는 과학 연구 과정을 부분적으로 자동화하는 이른바 ‘AI 과학자’를 개발하는 프로젝트를 이끌고 있다. 그의 팀은 아이디어를 떠올리는 데 LLM을 사용하지는 않는다. 대신 LLM이 로봇을 제어하는 등 더 큰 자동화 시스템의 일부로 활용되는 가능성에 주목하고 있다. 쿠퍼는 “적어도 초기에는 LLM이 사람보다는 로봇 중심의 작업에 더 많이 쓰일 것 같다”며 “사람들이 LLM에 지시를 받는 데는 아직 익숙하지 않은 것 같다”고 말했다.

여전한 실수와 한계

LLM이 점점 유용해지고 있는 것은 사실이지만 여전히 주의가 필요하다. 지난해 12월 양자역학을 연구하는 과학자 조나단 오펜하임(Jonathan Oppenheim)은 한 과학 저널에 실린 논문의 오류를 공개적으로 지적했다.

오펜하임은 X에 “오픈AI 경영진이 GPT-5가 핵심 아이디어를 제시한 논문을 홍보하고 있다. <물리학 레터스 B(Physics Letters B, 물리학 분야의 국제 학술지)>에 실린 이 논문은 LLM이 핵심 기여를 한 최초의 동료 심사 논문일 것”이라며 “하지만 작은 문제가 하나 있다. GPT-5의 아이디어가 엉뚱한 대상을 검증하고 있다”고 썼다.

오펜하임은 이어 “GPT-5가 비선형 이론을 검증할 방법을 제시해야 하는데 비국소성 이론을 테스트할 방법을 내놨다”며 “비슷하게 들리지만 전혀 다른 개념”이라고 지적했다. 그는 “코로나 검사를 요청했는데 LLM이 태연하게 수두 검사를 내미는 것과 같다”고 덧붙였다.

많은 과학자가 LLM을 창의적이고 직관적인 방식으로 활용하고 있는 것이 사실이지만, 동시에 이 기술이 전문가조차 쉽게 눈치채지 못할 만큼 미묘한 오류를 만들어낼 수 있다는 점 역시 분명하다.

챗GPT가 사용자의 경계를 무디게 만들 만큼 지나치게 친절하게 반응하는 특성도 문제로 지적된다. 오펜하임은 “LLM은 사용자의 의견에 긍정적으로 반응하도록 훈련돼 있지만, 과학에는 우리를 끊임없이 의심하고 도전하게 만드는 도구가 필요하다”고 설명했다. 실제로 과학자가 아닌 한 개인이 챗GPT의 말에 설득돼 몇 달 동안 자신이 수학의 새로운 분야를 창시했다고 믿은 극단적인 사례도 있었다.

물론 웨일 오픈AI 부사장 역시 환각 현상의 문제를 잘 알고 있다. 다만 그는 “최신 모델일수록 환각이 점점 줄어들고 있다”며 “환각 문제에만 초점을 맞추면 결국 본질을 놓칠 수 있다”고 말했다.

웨일은 수학 교수 출신의 한 팀원이 했던 말을 떠올리며 “연구를 하면서 동료와 아이디어를 주고받다 보면 자신이 하는 말의 90%는 틀린 말이지만, 그 과정 자체가 중요하다고 하더라”며 “서로 생각을 던지다 보면 결국 쓸 만한 무언가를 찾게 된다는 이야기였다”고 전했다.

그는 이어 “그런 과정을 갖는 것이 오히려 바람직하다”며 “틀린 말을 많이 하다 보면 누군가 우연히 진실에 가까운 실마리를 잡고, 또 다른 사람이 거기에 반응하면서 길이 서서히 드러난다”고 설명했다. 이어 “숲속에서 길을 찾아가는 과정과 비슷하다”고 덧붙였다.

이것이 웨일이 그리는 오픈AI 포 사이언스의 핵심 구상이다. GPT-5는 유용한 도구지만 신탁은 아니다. 이 기술의 가치는 확정적인 정답을 내놓는 데 있기보다, 사람들을 새로운 방향으로 이끄는 데 있다는 설명이다.

실제로 오픈AI는 최근 GPT-5가 답변할 때 확신에 찬 어조를 낮추는 방안도 검토하고 있다. “정답은 이것”이라고 단정하기보다 “이런 점을 고려해 볼 수 있다”는 식으로 제시하도록 만드는 것이다. 웨일은 “우리가 많은 시간을 들이고 있는 부분이 바로 이것”이라며 “단정적으로 말하기보다 스스로의 한계를 인식한 채 조심스럽게 답하도록 만드는 작업을 하고 있다”고 말했다.

AI를 검증하는 AI

오픈AI가 또 하나 주목하는 분야는 GPT-5를 이용해 GPT-5의 답을 다시 검증하는 방식이다. 모델이 내놓은 답변을 다시 입력하면, 스스로 이를 분석해 문제점을 짚어내도록 하는 것이다.

웨일은 “모델을 일종의 자기 비평가로 활용할 수 있다”며 “하나의 모델이 생각을 정리한 뒤 다른 모델로 넘기고, 두 번째 모델이 개선할 부분을 찾아내면 다시 원래 모델에 돌려보내는 식의 작업 흐름을 만들 수 있다”고 설명했다. 그는 이어 “마치 여러 에이전트가 함께 일하는 것과 비슷하며, 사용자는 이런 평가 과정을 거친 뒤의 최종 결과만 보게 된다”고 덧붙였다.

이 같은 구상은 구글 딥마인드가 알파이볼브를 통해 시도한 방식과도 닮아 있다. 알파이볼브는 구글의 LLM인 제미나이를 더 큰 시스템 안에 넣어, 좋은 답변은 남기고 부정확한 답변은 걸러낸 뒤 다시 개선하도록 되돌리는 구조로 설계됐다. 구글 딥마인드는 이를 활용해 실제 여러 문제를 해결해 왔다.

오픈AI는 만만치 않은 경쟁에 직면해 있다. 경쟁사들의 LLM 역시 오픈AI 모델이 할 수 있다고 내세우는 기능을 대부분 수행할 수 있기 때문이다. 그렇다면 과학자들이 제미나이나 앤트로픽의 클로드처럼 해마다 빠르게 발전하는 다른 모델이 아니라 GPT-5를 선택해야 하는 이유는 무엇일까. 오픈AI 포 사이언스는 새로운 영역에서 존재감을 선점하려는 성격이 강하다. 본격적인 기술적 도약은 이제부터 시작이라는 뜻이다.

웨일은 “과학 분야에서는 2026년이 하나의 분기점이 될 것이라고 본다”고 전망했다. 그는 “소프트웨어 개발 분야에서는 2025년을 지나며 분위기가 빠르게 바뀌었다”며 “연초만 해도 AI로 코드를 작성하면 앞서가는 개발자로 여겨졌지만, 1년이 지나자 오히려 AI를 쓰지 않으면 뒤처진다는 인식이 퍼졌다”고 설명했다. 그는 “지금 과학에서도 그와 비슷한 초기 변화가 나타나고 있다”며 “1년 뒤에는 AI를 적극적으로 활용하지 않는 과학자는 연구의 질과 속도를 끌어올릴 기회를 스스로 놓치는 셈이 될 것”이라고 덧붙였다.

The post 챗GPT 이후 3년…오픈AI, 이제 ‘과학’에 베팅하나 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.