구글 딥마인드, 현실 문제 해결 능력 인간 넘어선 새 AI 에이전트 개발

구글 딥마인드에서 공개한 ‘알파이볼브’는 대형언어모델을 사용하여 데이터센터 관리, 칩 설계 등을 위해 인간이 만든 최고의 시스템보다 성능이 뛰어난 새로운 알고리즘을 찾아낸다.

구글 딥마인드가 다시 한번 대형언어모델(LLM)을 사용해서 수학과 컴퓨터과학 분야의 오랜 문제에 대한 새로운 해법을 제시하는 인공지능(AI) 에이전트를 개발했다. 구글 딥마인드는 이번 AI 에이전트가 아직 풀리지 않은 이론적 문제를 해결할 수 있을 뿐만 아니라 현실 세계의 다양한 프로세스들도 개선할 수 있음을 보여줬다.

알파이볼브(AlphaEvolve)라는 이름의 이 에이전트는 구글의 LLM인 제미나이2.0을 사용하여 다양한 작업에 대한 코드를 생성한다. LLM은 코딩을 잘 해낼 때도 있고 그렇지 못할 때도 있는데, 알파이볼브는 제미나이의 제안에 점수를 매겨서 나쁜 것은 버리고 좋은 것은 수정하는 반복적인 과정을 거쳐 가능한 최고의 알고리즘을 생성한다. 알파이볼브가 이러한 과정을 통해 도출한 결과물은 사람이 작성한 기존의 알고리즘보다 더 효율적이거나 더 정확한 경우가 대부분이었다.

구글 딥마인드에서 과학을 위한 AI 팀을 이끌고 있는 푸시미트 콜리(Pushmeet Kohli) 부사장은 “알파이볼브는 일종의 슈퍼 코딩 에이전트”라면서 “단순히 코드나 수정 방법을 제안하는 것이 아니라 실제로 아무도 생각하지 못했던 결과를 만들어낸다”고 설명했다.

특히 알파이볼브는 구글이 전 세계 수백만 대의 서버에 작업을 할당하는 데 사용하는 소프트웨어를 개선할 방법을 찾아냈다. 구글 딥마인드는 알파이볼브가 만들어낸 새로운 소프트웨어를 구글의 모든 데이터센터에서 1년 이상 사용한 결과 구글의 전체 컴퓨팅 리소스를 0.7% 절약할 수 있었다고 주장했다. 0.7%라고 하면 미미한 수치로 느껴질 수 있지만, 구글의 규모를 고려하면 엄청난 수치이다.

영국 워릭 대학교의 야코프 모스바워(Jakob Moosbauer) 수학 연구원은 알파이볼브를 보고 깊은 인상을 받았다. 그는 “알파이볼브가 특정 해법 자체를 찾아내는 것이 아니라 이를 생성할 수 있는 알고리즘을 찾아내는 방식이 특히 대단하다”며 “이 접근법은 매우 다양한 문제에 적용할 수 있다”고 감탄했다. 이어서 그는 “AI는 수학과 컴퓨터과학에서 필수적인 도구가 되고 있다”고 덧붙였다.

알파이볼브는 구글 딥마인드가 수년간 추구해 온 작업의 연장선상에 있다. 구글 딥마인드는 AI가 수학과 과학 전반에 걸쳐 인간의 지식을 발전시키는 데 도움이 될 수 있다는 비전을 품고 연구를 지속하고 있다. 2022년 구글 딥마인드는 컴퓨터과학의 기본 문제인 행렬 곱셈을 더 빠르게 계산하는 방법을 찾아낸 알파텐서(AlphaTensor)라는 모델을 개발해, 50년 이상 깨지지 못했던 기록을 경신했다. 2023년에는 컴퓨터가 하루에 수조 번씩 수행하는 수많은 기본 연산을 더 빠르게 수행하는 방법을 발견한 알파데브(AlphaDev)를 공개했다. 알파텐서와 알파데브는 수학 문제를 일종의 게임으로 전환하여 게임에서 승리할 수 있는 방법을 찾는다.

2023년 말에는 이러한 게임 플레이 방식의 AI를 대신해 LLM을 기반으로 코드를 생성할 수 있는 펀서치(FunSearch)를 공개했다. LLM은 다양한 작업을 수행할 수 있기 때문에 이를 기반으로 하는 펀서치 또한 한 가지 유형의 게임만 플레이하도록 학습한 기존 모델들보다 더 다양한 문제를 해결할 수 있다. 펀서치는 순수 수학 분야에서 잘 알려진 미해결 문제들을 푸는 데 사용됐다.

알파이볼브는 이러한 펀서치의 다음 버전이다. 펀서치처럼 특정 문제를 해결하기 위한 짧은 코드 조각들을 만드는 대신 알파이볼브는 수백 줄에 달하는 코드로 이루어진 프로그램을 생성할 수 있다. 따라서 알파이볼브는 펀서치보다도 훨씬 더 다양한 문제에 적용할 수 있다.

이론적으로 알파이볼브는 코드로 설명할 수 있고 컴퓨터로 평가할 수 있는 해법이 존재하는 모든 문제에 적용할 수 있다. 구글 딥마인드에서 알고리즘 발견 팀을 이끌고 있는 마테이 발로그(Matej Balog) 연구원은 “알고리즘은 우리 주변의 세상을 움직일 수 있으므로 그 영향력은 엄청나다”고 말했다.

적자생존

알파이볼브의 작동 방식은 이렇다. 알파이볼브는 다른 LLM과 마찬가지로 프롬프트 입력을 지원한다. 프롬프트를 통해 문제에 대해 설명하고 이전 해법과 같은 추가 힌트를 제공하면 알파이볼브는 구글 딥마인드의 주력 LLM 중 가장 작고 빠른 버전인 제미나이2.0 플래시를 사용해 해당 문제를 해결하기 위한 여러 코드 덩어리를 생성한다.

그런 다음 각각의 코드 덩어리에 대한 정확성과 효율성을 확인하여 다양한 관련 지표에 따라 점수를 매긴다. 그 지표는 가령 ‘이 코드가 올바른 결과를 생성하는가?’ ‘이전 해법보다 더 빠르게 실행되는가?’ 등이다.

이러한 과정을 통해 최상의 코드 덩어리를 구성한 후에 알파이볼브는 제미나이에 해당 코드를 개선해달라고 요청한다. 가끔은 제미나이가 막히는 상황을 방지하기 위해 이전 해법을 코드 구성에 혼합하기도 한다.

그래도 해결이 되지 않으면 구글 딥마인드의 LLM 중 가장 성능이 뛰어난 제미나이2.0 프로를 호출할 수도 있다. 기본 목표는 속도가 빠른 제미나이2.0 플래시로 많은 코드를 생성한 후에, 필요하다면 속도가 더 느린 제미나이2.0 프로로 코드를 추가하는 것이다.

코드 생성, 평가, 재생성으로 이어지는 이러한 과정은 제미나이가 기존보다 더 나은 해법을 내놓을 수 없을 때까지 계속된다.

숫자 게임

연구팀은 다양한 문제에 대해 알파이볼브를 테스트했다. 예를 들어 행렬 곱셈도 다시 한번 살펴보면서 알파이볼브와 같은 범용 AI 도구가 이 문제에 특화된 알파텐서와 어떤 차이를 보이는지 확인했다. 행렬은 숫자를 격자 배열로 나열한 것이다. 행렬 곱셈은 AI에서 컴퓨터 그래픽에 이르기까지 많은 프로그램의 기반이 되는 기본 연산이지만, 가장 빠른 계산법을 아는 사람은 아무도 없다. 발로그 연구원은 “이 문제의 답을 아직 알지 못한다는 게 믿어지지 않는다”고 말했다.

연구팀은 알파이볼브에 행렬 곱셈 문제에 대한 설명과 이를 해결하는 표준 알고리즘을 예시로 제공했다. 그 결과, 알파이볼브는 14가지 다양한 크기의 행렬을 기존 방식보다 빠르게 계산할 수 있는 새로운 알고리즘을 생성했을 뿐만 아니라 4×4 행렬 두 개에 대한 곱셈에서 알파텐서가 기존 기록을 경신하며 찾아낸 결과도 개선했다.

알파이볼브는 제미나이가 제안한 1만 6,000개의 해법에 점수를 매겨 최적의 해법을 찾았는데, 이에 대해 발로그 연구원은 “알파텐서보다 더 효율적이었다”고 평가했다. 또한 알파텐서가 찾아낸 방법은 행렬이 0과 1로 채워진 경우에만 작동했지만, 알파이볼브는 다른 숫자로 이루어진 행렬 곱셈 문제도 풀었다.

모스바워 연구원은 “행렬 곱셈에 대한 결과는 매우 인상적”이라면서 “알파이볼브가 찾아낸 새 알고리즘은 실제 연산 속도를 높일 잠재력이 있다”고 말했다.

오스트리아 린츠에 위치한 요하네스케플러 대학교의 마누엘 카워스(Manuel Kauers) 수학 교수도 모스바워 연구원의 의견에 동의하며 “행렬 문제에 대한 개선은 실제로 활용될 가능성이 크다”고 말했다,

공교롭게도 동료 교수와 함께 카워스 교수도 다른 연산 기법을 사용해서 알파이볼브가 행렬 곱셈의 연산 속도를 높일 방법으로 찾아낸 해법들의 일부를 막 찾아낸 참이었다. 이 두 사람은 지난주에 해당 연구 결과에 대한 논문을 온라인에 게시한 바 있다.

카워스 교수는 “행렬 곱셈에 대한 이해가 개선되고 있다는 사실을 알게 되어 기쁘다”며 “이 문제에 도움이 되는 모든 기법들을 환영한다”고 밝혔다.

현실 세계의 문제들

행렬 곱셈은 한 가지 돌파구였을 뿐이다. 구글 딥마인드는 알파이볼브로 50여 개의 잘 알려진 수학 문제들을 테스트했다. 그러한 수학 문제에는 푸리에 해석(영상 스트리밍 등에 필수적인 데이터 압축의 기반이 되는 수학), 최소 중첩 문제(헝가리 수학자 에르되시 팔(Erdős Pál, 또는 영어식으로 폴 에르되시(Paul Erdős)라고도 표기)이 1955년 제안한 정수론의 미해결 문제), 입맞춤 수 문제(아이작 뉴턴이 소개한 문제이며 재료과학, 화학, 암호화 기술 등에 응용) 등이 있다. 테스트 결과 알파이볼브가 찾아낸 해법은 75%의 사례에서 기존에 나온 최상의 해법과 일치했으며, 20%의 사례에서는 더 나은 해법인 것으로 나타났다.

이후 딥마인드는 알파이볼브를 몇 가지 실세계 문제에 적용했다. 알파이볼브는 위에서 설명한 바와 같이 데이터센터 전반의 컴퓨팅 리소스 관리를 위한 더 효율적인 알고리즘을 제시했으며, 구글의 데이터 분석 및 딥러닝용 하드웨어인 텐서처리장치(TPU) 칩의 전력 소비를 줄이는 방법도 찾아냈다.

알파이볼브는 AI 학습 과정에 사용되는 특정 유형의 연산을 관리하는 보다 효율적인 알고리즘을 생성함으로써 제미나이 자체의 학습 속도를 높이는 방법까지 찾아냈다.

구글 딥마인드는 알파이볼브의 잠재적 활용 분야를 계속 탐색할 계획이다. 알파이볼브의 한 가지 한계는 해석이 필요한 실험실 실험처럼 사람이 직접 평가해야 하는 문제에는 사용할 수 없다는 점이다.

그러나 모스바워 연구원은 “알파이볼브가 다양한 문제에서 인상적인 새로운 결과를 도출할 수는 있겠지만, 그런 해법에 도달한 방법에 대한 이론적 정보는 거의 제공하지 않는다”고 지적했다. 이는 인간의 이해를 증진하는 데 단점으로 작용할 수 있다.

그럼에도 불구하고 알파이볼브와 같은 도구는 연구자들의 작업 방식을 변화시킬 것이다. 구글 딥마인드의 콜리 부사장은 “아직 끝이 아니라고 생각한다”며 “이러한 접근 방식을 더 강력하게 발전시킬 방법이 아직 많이 남아있다”고 강조했다.

The post 구글 딥마인드, 현실 문제 해결 능력 인간 넘어선 새 AI 에이전트 개발 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.