[인터뷰] 구글 딥마인드의 노벨상 수상자가 말하는 ‘알파폴드’의 미래

지난해 알파폴드로 노벨화학상을 공동 수상한 구글 딥마인드의 존 점퍼 박사는 “과학 분야에서 대형언어모델(LLM)의 영향력이 점점 더 커지지 않는다면 오히려 놀라울 것”이라고 말했다.

요약

다음은 AI로 작성해 에디터가 검토한 본 기사의 요약이다.

노벨상 수상에 빛나는 단백질 구조 예측 시스템, 알파폴드: ‘알파폴드’가 단백질 구조 예측 분야를 혁신한 지 5년이 흘렀다. 알파폴드 개발로 노벨상을 수상한 구글 딥마인드의 존 점퍼(John Jumper) 박사와 함께 지난 5년의 시간을 되돌아봤다. 알파폴드는 고작 몇 시간 만에 단백질 구조를 원자 수준의 정밀도로 예측할 수 있다.
예상치 못한 응용 분야의 등장: 과학자들은 꿀벌의 질병저항성 연구부터 합성단백질 설계 가속화에 이르기까지 창의적이고 ‘예상하지 못한’ 방식으로 알파폴드를 활용하고 있다. 일부 연구진은 알파폴드를 검색 엔진처럼 활용해 실험실에서는 검증하기 어려운 단백질의 수천 가지 상호작용 가능성을 테스트하며 적합한 조합을 찾기도 한다.
언어 모델과의 융합: 노벨상 수상 당시 39세로 최연소 노벨화학상 수상자가 된 점퍼 박사는 현재 알파폴드에 대형언어모델(LLM)의 추론 능력을 결합하는 것을 목표로 하고 있다. 그는 “과학 분야에서 LLM의 영향력이 점점 더 커지지 않는다면 오히려 놀라울 것”이라고 말하면서도, 또다시 노벨상을 받을 만한 혁신을 일으켜야 한다는 부담감은 갖지 않기 위해 노력하고 있다.

2017년 이론화학 박사 학위를 갓 취득한 존 점퍼(John Jumper) 박사는 구글 딥마인드가 초인적 실력의 게임 AI 개발을 넘어 단백질 구조 예측을 위한 비밀 프로젝트에 착수했다는 소문을 들었다. 그리고 그곳에 입사 지원을 했다.

불과 3년 후, 점퍼 박사는 누구도 예상하지 못했던 놀라운 성과를 거뒀다. 구글 딥마인드의 데미스 허사비스(Demis Hassabis) CEO와 함께 알파폴드2(AlphaFold 2)라는 AI 시스템 개발을 이끈 것이다. 단백질 구조를 원자 너비 단위까지 예측할 수 있는 알파폴드2는 실험실에서 최소 몇 달 동안 수행해야 하는 단백질 구조 예측 방식의 정확도와 맞먹으면서도 단 몇 시간이라는 훨씬 빠른 속도로 결과를 도출해냈다.

알파폴드2는 생물학 분야에서 50년간 풀지 못했던 난제를 해결했다. 허사비스 CEO는 “사실 이런 일을 해내기 위해 딥마인드를 시작했고 지금까지 AI 분야에서 계속 일해왔던 것”이라고 몇 년 전 인터뷰에서 밝힌 바 있다. 2024년 점퍼 박사와 허사비스 CEO는 노벨화학상을 공동 수상했다.

알파폴드2가 과학계를 깜짝 놀라게 하며 등장한 지 5년이 지났다. 이제 열기는 가라앉았다. 그동안 알파폴드는 과학 분야에 실제로 어떤 영향을 미쳤을까? 과학자들은 알파폴드를 어떻게 활용하고 있을까? 다음 단계는 무엇일까? 그 답을 알아보기 위해 점퍼 박사, 그리고 다른 몇몇 과학자들과 이야기를 나눴다.

점퍼 박사는 웃으며 “정말 놀라운 5년이었다”며 “그 이전의 시절을 떠올리기 힘들 정도”라고 덧붙였다.

알파폴드2에 이어 단백질 하나가 아닌 여러 단백질을 포함한 구조를 예측할 수 있는 알파폴드 멀티머(AlphaFold Multimer)가 개발됐고, 그 뒤를 이어 현재 가장 빠른 버전인 알파폴드3도 출시됐다. 또한 구글 딥마인드는 알파폴드를 전 세계 수백만 연구자들이 사용하고 업데이트하는 방대한 단백질 데이터베이스 유니프롯(UniProt)에 공개했다. 현재 알파폴드는 약 2억 개의 단백질 구조를 예측했으며, 이는 과학계에 알려진 거의 모든 단백질 구조에 해당한다.

점퍼 박사는 이러한 성공에도 불구하고 알파폴드의 성과에 대해 겸손한 태도를 유지했다. 그는 “알파폴드가 예측하는 모든 구조가 확실하다는 의미는 아니”라면서 “알파폴드는 예측 데이터베이스이므로 그 점을 늘 유념해야 한다”고 밝혔다.

어려운 문제

단백질은 생명체가 작동하는 데 필수적인 ‘생물학적 기계’다. 단백질은 근육, 뿔, 깃털을 형성하고, 신체 내에서 산소를 운반하며 세포 간 신호를 전달하고, 뉴런(신경세포)을 활성화하며, 음식을 소화하고, 면역체계를 작동시키는 등의 다양한 역할을 한다. 그러나 단백질이 정확히 무엇을 하는지, 그리고 다양한 질병이나 치료에서 어떤 역할을 할 수 있는지 이해하려면 그 구조를 파악해야 한다. 바로 그러한 단백질 구조 파악이야말로 어려운 과제다.

단백질은 화학적 힘에 의해 복잡한 매듭으로 꼬여 있는 아미노산 사슬로 이루어져 있다. 꼬이지 않은 사슬에서는 어떤 구조로 형성될지에 대한 단서를 거의 파악할 수 없다. 이론적으로 대부분의 단백질이 취할 수 있는 형태는 셀 수 없을 만큼 무한하다. 여기서 우리가 해야 할 일은 올바른 형태를 예측하는 것이다.

점퍼 박사와 연구팀은 트랜스포머(transformer)라는 유형의 신경망을 사용해 알파폴드2를 구축했다. 대형언어모델(LLM)의 기반이 되는 기술이기도 한 트랜스포머 신경망은 복잡한 문제에서 중요한 특정 부분에 집중해 정보를 처리하는 능력이 매우 뛰어나다.

그러나 점퍼 박사는 알파폴드2가 성공할 수 있었던 근본적인 이유가 프로토타입 모델을 제작해 신속하게 테스트할 수 있었던 덕분이라고 밝혔다. 그는 “우리는 엄청난 속도로 잘못된 답을 내놓는 시스템을 구축했다”며 “빠른 속도 덕분에 다양한 아이디어를 실험하면서 과감한 시도를 많이 할 수 있었다”고 설명했다.

점퍼 박사와 연구팀은 트랜스포머 신경망에 가능한 한 많은 단백질 구조 정보를 주입했다. 가령 특정 종들 간에 단백질이 어떻게 유사한 형태로 진화했는지와 같은 정보들이었다. 그 결과는 예상보다 훨씬 훌륭했다. 점퍼 박사는 “우리는 획기적인 돌파구를 마련했다고 확신했다”며 “엄청난 진전이 있었다”고 말했다.

점퍼 박사는 연구자들이 알파폴드를 바로 다운로드해 다양한 분야에 즉시 활용할 것이라고는 예상하지 못했다. 점퍼 박사에 따르면 일반적으로는 초기 버전의 결함이 수정되고 몇 차례 업데이트가 이루어진 후에야 실질적인 영향력이 생기기 때문이다. 그는 “과학자들이 알파폴드의 예측을 해석하고 실제 연구에 적용하는 방식이 매우 책임감 있게 이루어지고 있다는 점에 놀랐다”며 “과학자들은 예측 결과를 지나치게 신뢰하거나 지나치게 무시하지 않고 적정한 수준으로 활용하고 있다”고 설명했다.

그렇다면 점퍼 박사가 생각하기에 특히 인상적인 프로젝트는 무엇일까?

꿀벌 연구

점퍼 박사는 알파폴드를 사용해 꿀벌의 질병저항성을 연구하는 팀을 언급했다. 그는 “그 연구팀은 꿀벌 군집 붕괴 현상과 같은 문제를 연구하며 단백질에 대해 이해하고자 했다”고 설명하며 “알파폴드가 꿀벌 연구에 활용될 것이라고는 상상하지 못했다”고 덧붙였다.

점퍼 박사는 또한 알파폴드를 ‘예상치 못한’ 방식으로 활용한 몇 가지 사례도 설명했다. 이러한 사례에는 알파폴드가 도움이 되리라고는 예상하지 못했으나 단백질 구조 예측을 통해 새로운 연구 기법이 가능해진 분야들이 포함된다. 그는 “첫 번째는 단백질 설계 분야의 진보”라면서 “워싱턴 대학교의 데이비드 베이커(David Baker) 계산생물학 교수와 같은 연구자들이 알파폴드로 단백질 설계 분야를 빠르게 발전시키고 있다”고 설명했다.

베이커 교수는 질병 치료나 플라스틱 분해와 같은 특정 작업에서 자연 단백질보다 효과가 뛰어난 합성단백질을 개발하는 연구로, 지난해 점퍼 박사, 허사비스 CEO와 함께 노벨화학상을 공동 수상했다.

베이커 교수와 동료들은 알파폴드를 기반으로 로제타폴드(RoseTTAFold)라는 자체 도구를 개발했다. 그러나 이들은 알파폴드 멀티머를 사용해 합성단백질 설계안 중 어느 것이 실제로 효과가 있을지 예측하는 실험도 진행하고 있다.

점퍼 박사는 “기본적으로 알파폴드가 단백질 구조 설계안에 확신을 보이면 그 구조로 합성단백질을 제작하고, 알파폴드가 모르겠다고 하면 제작하지 않는 것”이라면서 “그것만으로도 엄청난 개선”이라고 강조했다. 점퍼 박사에 따르면 이 기술은 단백질 설계 과정의 속도를 10배 가속화할 수 있다.

또 다른 사례는 알파폴드를 일종의 검색 엔진으로 전환하는 것이다. 점퍼 박사는 수정 과정에서 인간의 정자가 정확히 어떻게 난자와 결합하는지 이해하고자 했던 두 연구팀을 언급했다. 해당 연구팀들은 관련 단백질 중 하나는 알고 있었지만, 다른 하나는 몰랐다. 그는 “그래서 연구팀은 알파폴드를 활용해 알려진 난자 단백질 하나를 가져와 인간 정자 표면 단백질 2,000개를 모두 확인해봤고, 난자에 달라붙는다고 판단되는 단백질 하나를 발견했다”고 설명했다. 이후 실험에서 결과를 실제로 검증할 수 있었다.

점퍼 박사는 “단 하나의 답을 찾기 위해 2,000개 구조를 분석한 사례처럼, 알파폴드를 활용해 이전에는 불가능했던 일을 해낼 수 있게 된 것 자체가 놀라운 일”이라고 강조했다.

5년 후

알파폴드2가 출시됐을 때 필자는 초기 사용자 몇 명에게 알파폴드를 평가해달라고 요청했다. 평가는 좋았지만, 당시 너무 새로운 기술이었기 때문에 알파폴드가 장기적으로 어떤 영향을 미치게 될지는 확실히 알 수 없었다. 필자는 당시 초기 평가에 참여했던 인물 중 한 명을 만나 5년이 지난 현재의 생각을 들어보았다.

클리멘트 버바(Kliment Verba) 분자생물학 교수는 캘리포니아 대학교 샌프란시스코 캠퍼스에서 연구실을 운영하고 있다. 그는 “알파폴드는 의심의 여지없이 엄청나게 유용한 기술”이라면서 “우리는 알파폴드를 매일, 항상 사용한다”고 밝혔다.

그러나 완벽하지는 않다. 많은 과학자들이 알파폴드를 병원체 연구나 신약 개발에 활용한다. 여기에는 체내에서 여러 단백질 간 상호작용이나 단백질과 더 작은 분자 간의 상호작용을 분석하는 작업도 포함된다. 그러나 여러 단백질이나 시간에 따른 단백질들의 상호작용에 대한 알파폴드의 예측 정확도는 상대적으로 떨어지는 것으로 알려져 있다.

버바 교수는 알파폴드를 오랫동안 사용해왔기 때문에 그 한계에 대해서도 충분히 인지하고 있다고 말했다. 그는 “알파폴드의 예측 결과를 보고 고민에 빠질 때도 많다”며 “결과가 진짜인지 아닌지 명확하지 않고 경계선에 있는 것과 같기 때문”이라고 설명했다.

버바 교수는 “이 부분에서 챗GPT와 유사한 점이 있다”며 “거짓말을 할 때도 진짜 답을 알려줄 때와 똑같이 자신 있게 말하는 점이 그렇다”고 지적했다.

그렇다고 해도 버바 교수의 연구팀은 실험실에서 실험을 진행하기 전에 알파폴드(2와 3의 강점이 다르기 때문에 둘 다 사용한다고 밝혔다)를 활용해 가상 실험을 수행한다. 알파폴드의 결과를 바탕으로 실험의 범위를 좁히거나 아예 진행할 가치가 없다고 판단하기도 한다.

버바 교수는 “알파폴드가 실제 실험을 대체할 수 있는 건 아니지만 시간을 크게 절약해 준다”고 말했다.

새로운 물결

알파폴드는 다양한 목적으로 사용되도록 설계됐다. 이제 여러 스타트업과 대학 연구실에서는 알파폴드의 성공을 바탕으로 신약 개발에 더 특화된 새로운 도구들을 개발하고 있다. 올해 MIT 연구진과 AI 신약 개발 기업 리커션(Recursion)의 협업으로 탄생한 볼츠-2(Boltz-2) 모델은 단백질 구조뿐 아니라 잠재적 약물 분자가 표적에 결합하는 정도까지 예측한다.

지난 10월 스타트업 제네시스 몰레큘러 AI(Genesis Molecular AI)는 펄(Pearl)이라는 또 다른 단백질 구조 예측 모델을 공개했다. 이 회사는 신약 개발과 관련해 중요한 특정 질문에 대해서는 펄이 알파폴드3보다 더 정확하다고 주장했다. 펄은 신약 개발자가 보유한 추가 데이터를 입력해 예측을 유도하는 것도 가능하다.

제네시스 몰레큘러 AI의 에번 파인버그(Evan Feinberg) CEO는 “알파폴드는 대단한 도약이었으나 앞으로도 연구할 부분이 많다”면서 “우리는 여전히 근본적인 부분에서 혁신을 이어가고 있지만 이전보다 더 나은 출발점에서 시작하고 있을 뿐”이라고 설명했다.

제네시스 몰레큘러 AI는 오차 범위를 알파폴드로 설정된 실질적 업계 표준인 2옹스트롬 미만에서 1옹스트롬 미만으로 줄이기 위해 노력하고 있다. 1옹스트롬은 1,000만분의 1밀리미터로, 수소 원자 하나의 너비에 해당한다.

마이클 러바인(Michael LeVine) 모델링 및 시뮬레이션 부문 부사장은 “약물의 표적 결합 정도를 예측할 때는 작은 오차도 치명적일 수 있다”고 지적했다. 1옹스트롬에서는 작용하던 화학적 힘이 2옹스트롬에서는 작용하지 않을 수 있기 때문이다. 그는 “절대 상호작용이 일어나지 않을 상황에서 상호작용이 일어나는 상황으로 바뀔 수 있다”고 덧붙였다.

이처럼 이 분야에서 활발한 연구가 진행되고 있는 상황에서 새로운 유형의 약물이 시장에 출시되려면 얼마나 걸릴까? 점퍼 박사는 이 질문에 대해 현실적인 관점으로 답했다. 그는 단백질 구조 예측은 수많은 과정 중 하나일 뿐이라면서 “단백질 구조 예측만 해결하면 모든 질병을 치료할 수 있는 것처럼 생각해서는 안 된다”고 강조했다.

점퍼 박사는 “알파폴드를 활용하게 되면서 실험실에서 단백질 구조를 발견할 때보다 비용과 시간을 절감할 수 있게 됐지만, 신약 개발에는 단백질 구조 발견 외에도 많은 단계가 필요하다”고 말했다.

점퍼 박사는 “연구자들은 알파폴드로 최대한 많은 일을 해낼 방법을 모색하고 있다”면서 “단백질 구조 예측을 문제의 중심으로 전환해 알파폴드의 빠른 속도와 단백질 구조 예측 능력을 더 유용하게 활용할 방법을 고민 중”이라고 강조했다.

다음 단계는?

점퍼 박사의 다음 계획은 무엇일까? 그는 좁은 분야에서 깊이 있게 활용할 수 있는 알파폴드의 능력과 광범위하게 활용할 수 있는 LLM의 강점을 융합하고자 한다.

점퍼 박사는 “과학 논문과 데이터를 읽고 추론도 어느 정도 가능한 LLM과 단백질 구조 예측에 놀라울 정도로 뛰어난 알파폴드 기술을 어떤 식으로 융합할 수 있을지 고민하고 있다”고 밝혔다.

점퍼 박사의 말에 필자는 구글 딥마인드의 다른 팀에서 개발하고 있는 알파이볼브(AlphaEvolve) 시스템을 떠올렸다. 알파이볼브는 LLM을 활용해 문제에 대한 가능한 해결책을 생성하고, 두 번째 모델로 이를 검증해 쓸모없는 결과를 걸러낸다. 연구진은 이미 알파이볼브를 활용해 수학과 컴퓨터과학 분야에서 몇 가지 실용적인 발견을 이룬 바 있다.

점퍼 박사가 염두에 둔 계획은 알파이볼브와 비슷한 것일까? 점퍼 박사는 “방법에 대해서는 자세히 말하지 않겠지만, 과학 분야에서 LLM의 영향력이 점점 더 커지지 않는다면 오히려 놀라울 것”이라면서 “매우 흥미로운 과제가 될 것”이라고 밝혔다.

점퍼 박사는 지난해 39세의 나이로 노벨상을 수상했다. 그의 다음 목표는 무엇일까?

점퍼 박사는 “내가 현재까지 최연소 노벨화학상 수상자라는 사실이 조금 부담스럽다”고 입을 열었다.

그는 “나는 연구자로서 내 커리어의 중간쯤에 와 있다”며 “두 번째 노벨상 같은 거창한 목표보다는 계속 발전시킬 수 있는 작은 아이디어들을 탐구하는 연구에 계속 집중하고자 한다”고 밝혔다.

The post [인터뷰] 구글 딥마인드의 노벨상 수상자가 말하는 ‘알파폴드’의 미래 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.