AI 시대, 수학은 어디로 향하나

지난 1년간 고등학교 수준을 넘어서는 수학 문제를 해결하는 대형언어모델의 능력은 급격히 발전했다. 그렇다면 AI는 인간 수학자에 가까워지고 있는 것일까?

미국 국방고등연구계획국(DARPA, 이하 ‘다르파’)의 표현에 따르면 수학은 과거에 머물러 있다. 지난 4월 다르파는 수학 발전을 위해 ‘엑스프매스(expMath, Exponentiating Mathematics의 줄임말)’라는 명칭의 새로운 이니셔티브를 개시했다. 이 계획은 컴퓨터과학부터 의학 및 국가 안보에 이르기까지 광범위한 현실 세계 응용 분야의 기반이 되는 연구의 진전 속도를 높이는 것을 목표로 한다.

패트릭 샤프토(Patrick Shafto) 다르파 프로그램 관리자는 이번 이니셔티브를 소개하는 영상에서 “수학은 엄청난 영향을 주는 원천이지만, 그 방식은 수 세기 전과 달라진 부분이 거의 없으며 여전히 칠판 앞에 선 사람들이 문제를 풀고 있다”고 말했다.

현대 세계는 수학을 기반으로 이루어져 있다. 수학을 활용하면 항공기 주변의 공기 흐름, 금융 시장의 변동, 심장을 지나는 혈류와 같은 복잡한 시스템을 모델링할 수 있다. 또한 고급 수학을 통해 우리는 개인 메시지와 온라인 뱅킹에 필수적인 암호화 기술, 인터넷으로 이미지와 영상을 전송하는 데 필요한 데이터 압축과 같은 새로운 기술을 개발할 수 있다.

그러나 수학이 발전하려면 오랜 시간이 걸릴 수 있다. 다르파는 이 과정을 가속화하고자 한다. 엑스프매스 이니셔티브의 목표는 수학자들과 인공지능(AI) 연구자들이 수학을 위한 AI 도구를 개발하도록 장려하는 것이다. 다르파에서 ‘AI 공동저자(AI coauthor)’라고 지칭하는 이 도구는 거대하고 복잡한 수학 문제를 더 작고 단순한 문제로 분해해 더 이해하기 쉽고 더 빠르게 풀 수 있도록 할 수 있을지도 모른다.

수학자들은 수십 년 동안 계산 속도를 높이거나 특정 수학 명제가 참인지 확인하는 데 컴퓨터를 사용해 왔다. 그리고 이제는 AI가 이전에는 풀 수 없었던 문제를 해결하는 데 도움을 줄 수 있을 것이라고 생각한다.

그러나 고등학교 수준의 문제, 즉 최신 AI 모델들이 이미 숙달한 수학 문제를 풀 수 있는 AI와 수학자들이 평생을 바쳐 해결하려는 문제를 (이론적으로라도) 풀 수 있는 AI 사이에는 엄청난 차이가 있다.

전자는 수학 전공자들이 수행해야 하는 특정 작업들을 자동화할 수 있는 도구이며, 후자는 현재의 한계를 넘어 인간의 지식을 확장시킬 수 있는 도구인 것이다.

이번에는 이러한 AI간의 차이를 이해하기 위한 세 가지 관점을 살펴보겠다.

1. AI에는 단순한 문제 풀이 요령을 넘어서는 능력이 필요하다

대형언어모델(LLM)은 수학에 그다지 능숙하지 않다. 결과를 날조하거나 2 + 2가 5라는 주장에 설득당하기도 한다. 그러나 오픈AI의 o3나 앤트로픽의 클로드4와 같은 이른바 대형추론모델(LRM)을 비롯한 새로운 모델들은 훨씬 더 뛰어난 능력을 보여주면서 수학자들을 흥분시키고 있다.

올해에는 문제를 즉각적으로 푸는 대신 단계별로 해결을 시도하는 여러 LRM이 미국 수학경시대회(AIME)에서 높은 점수를 기록했다. AIME는 미국 고등학생 중 상위 5%만 초대받을 수 있는 경시대회이다.

LLM에 사실 확인 시스템을 결합한 몇몇 새로운 하이브리드 모델들도 돌파구를 마련하고 있다. 브라질 상파울루 대학교 수학과의 에밀리 드 올리베이라 산투스(Emily de Oliveira Santos) 연구원은 구글 딥마인드의 알파프루프(AlphaProof)를 중요한 이정표 중 하나로 꼽는다. LLM과 딥마인드의 게임 플레잉 모델인 알파제로(AlphaZero)를 결합한 이 시스템은 작년에 세계에서 가장 권위 있는 수학 대회 중 하나인 국제수학올림피아드에서 은메달 수상자 수준의 성능을 최초로 달성한 컴퓨터 프로그램이 되었다.

그리고 5월에는 구글 딥마인드의 알파이볼브(AlphaEvolve)라는 모델이 50여 개의 미해결 수학 문제와 몇 가지 실제 컴퓨터과학 문제에서 인간이 지금까지 제시한 어떤 방식보다도 나은 해법을 찾아냈다.

이처럼 조금씩이라고 해도 진전은 분명히 이루어지고 있다. 산투스 연구원은 “GPT-4는 학부 수준을 넘어서는 수학 문제는 다룰 수 없었다”며 “출시 당시 위상수학 문제로 테스트해 보니 몇 줄도 제대로 쓰지 못하고 완전히 길을 잃었다”고 당시를 회상했다. 그러나 같은 문제를 1월에 출시된 오픈AI의 LRM인 o1에 제시하자 정확하게 해결해 냈다.

그렇다면 이런 모델들이 다르파가 기대하는 ‘AI 공동저자’가 될 준비가 되었다고 할 수 있을까? 산투스 연구원은 “꼭 그렇다고 볼 수는 없다”고 지적했다. 그러면서 “수학올림피아드 문제를 푸는 데는 문제 풀이 요령이 필요한 경우가 많지만, 연구 문제는 훨씬 더 탐구적이며 매우 많은 요소들이 얽혀 있다”고 설명했다. 따라서 특정 문제 해결 방식이 다른 유형의 문제에도 통한다는 보장이 없는 것이다.

다른 이들도 동의한다. 옥스퍼드 대학교의 마틴 브리드슨(Martin Bridson) 수학과 교수는 AI가 수학올림피아드에서 좋은 성적을 기록한 것이 대단한 성취라고 생각한다. 그러나 “그 결과가 충격적이라고는 생각하지 않는다”고 덧붙였다. 그는 “기계가 그런 일을 해낼 줄은 몰랐다는 식의 패러다임 전환은 아니라고 생각한다”며 “나는 애초에 기계가 그 정도는 할 수 있을 것이라고 예상했다”고 말했다.

그 이유는 수학올림피아드나 AIME에 나올 법한 고등학교 또는 학부 수준의 수학 문제들이 어렵기는 해도 그중 상당수의 문제가 일정한 패턴을 따르기 때문이다. 브리드슨 교수는 “우리는 고등학생들에게 그런 문제 푸는 법을 가르치는 캠프도 운영한다”며 “많은 사람에게 문제 푸는 요령을 가르칠 수 있다면 당연히 기계에도 문제 푸는 요령을 가르칠 수 있다”고 설명했다.

수학올림피아드 팀의 코치이기도 한 세르게이 구코프(Sergei Gukov) 캘리포니아 공과대학교 수학과 교수는 “대회마다 스타일이 크게 바뀌지는 않는다”고 지적했다. 다시 말해서 해마다 새로운 문제가 출제되지만, 그 문제들도 이전과 같은 문제 풀이 요령으로 풀 수 있다.

구코프 교수는 “물론 이전에 출제된 적이 없는 문제들도 있다”며 “그렇다고 해도 그 문제들도 이미 이전에 봤던 수많은 문제들과 약간 다를 뿐이기 때문에 곧 유사성을 발견하고 같은 문제 풀이법을 적용할 수 있다”고 설명했다. 대회 수준의 수학 문제가 아무리 어려워도 학생이든 기계든 그 문제들을 푸는 법을 배울 수 있는 것이다.

그러나 대부분의 미해결 수학 문제에는 이런 방식이 통하지 않는다. 브리드슨 교수는 미국의 비영리 연구기관인 클레이 수학연구소(Clay Mathematics Institute)의 회장이기도 한데, 이 연구소는 2000년에 수학계에서 가장 중요한 미해결 문제 7개를 ‘밀레니엄 문제(Millennium Prize Problem)’로 선정하여 각 문제를 처음 푸는 사람에게 100만 달러(약 13억 6,000만 원)의 상금을 수여한다고 밝힌 것으로 유명한 곳이다. (그중 푸앵카레 추측은 2010년에 해결되었고, P-NP 문제와 리만 가설 등 나머지 문제들은 여전히 미해결 상태이다.) 브리드슨 교수는 “AI가 이 난제들 중 어느 것에 대해서라도 진지하게 설명할 수 있는 단계에 이르려면 아직 한참 멀었다”고 지적했다.

그러나 정확히 얼마나 먼 상태인지는 알 수 없다. 현재 AI의 발전 상황을 평가하는 데 사용되는 기존의 많은 벤치마크들이 이미 한계에 도달했기 때문이다. 최신 모델들은 이미 AIME 같은 시험에서 대부분의 인간보다 더 나은 성능을 보여주고 있다.

지난해 12월 스타트업인 에포크 AI(Epoch AI)는 기존 시스템의 역량을 더 제대로 파악하기 위해 프런티어매스(FrontierMath)라는 새로운 테스트를 출시했다. 에포크 AI는 인간을 위해 개발된 수학 시험을 차용하는 대신, 전 세계 60여 명의 수학자들과 협력하여 수학 문제 세트를 새로 만들었다.

프런티어매스는 오늘날 AI가 가진 능력의 한계를 파악하기 위해 만들어졌다. 이 테스트는 이전에 그 누구도 본 적 없는 문제로 구성되며, 학습 데이터 오염을 피하기 위해 대부분의 문제는 비공개로 유지된다. 각 문제는 수학 전문가도 푸는 데 몇 시간이 걸리며(풀 수 있다면 말이다), 일부 문제는 전문 지식 없이는 접근조차 할 수 없다.

프런티어매스는 업계 표준이 될 전망이다. 일부 문제 개발에 참여한 산투스 연구원은 “아직 AIME 문제만큼 인기가 있지는 않지만, 기존 벤치마크가 거의 한계에 다다랐기 때문에 곧 상황이 달라질 것이라고 생각한다”고 밝혔다.

AIME에서는 앤트로픽의 클로드4, 오픈AI의 o3와 o4-미니, 구글 딥마인드의 제미나이2.5 프로, X-AI의 그록3와 같은 최고의 LLM들이 현재 약 90%의 점수를 기록했다. 한편, 프런티어매스에서는 o4-미니가 19%, 제미나이2.5 프로가 13%를 기록했다. 놀라운 결과이긴 하지만 개선의 여지는 분명하다.

프런티어매스는 수학 분야에서 AI의 진보 속도를 가장 잘 보여줄 수 있는 척도가 될 것이다. 그러나 컴퓨터가 감당할 수 없을 정도로 어려운 문제들도 여전히 존재한다.

2. AI는 매우 방대한 풀이 과정을 처리할 수 있어야 한다

어떤 면에서 수학 문제는 모두 비슷해 보인다. 수학 문제를 풀기 위해서는 시작부터 끝까지 풀이 과정을 따라야 한다. 문제는 그 과정을 찾아내는 것이다.

구코프 교수는 “거의 모든 수학 문제는 ‘경로 탐색(path-finding)’ 과정이라고 설명할 수 있다”고 말했다. 이런 관점에서 어떤 수학 문제가 다른 문제보다 훨씬 더 어려운 이유는 바로 그 경로에 포함된 단계 수가 더 많기 때문이다. 구코프 교수는 “리만 가설과 고등학교 수학 문제의 차이는 고등학교 수학 문제에서 우리가 찾아야 할 경로가 짧다는 것”이라면서 “10단계, 20단계, 가장 긴 경우에 40단계 정도 된다”고 덧붙였다. 게다가 이러한 단계들은 여러 수학 문제에 반복된다.

구코프 교수는 “하지만 우리는 리만 가설을 푸는 데 어떤 단계가 필요한지 모르며 아마 그 문제를 해결하려면 엄청나게 긴 경로를 찾아야 할 것”이라면서 “컴퓨터를 이용한 증명으로 백만 줄에 달할지도 모른다”고 강조했다.

매우 긴 풀이 과정을 찾아내는 것은 일종의 복잡한 게임처럼 느껴질 수 있다. 실제로 딥마인드의 알파제로는 바둑과 체스에 숙달할 때 이런 식의 학습 과정을 거쳤다. 바둑 한 판은 몇백 수(move)로 이루어져 있지만, 대결에서 이기려면 AI는 수많은 경우의 수 중에서 승리로 이어지는 조합을 찾아야 한다. 구코프 교수는 이러한 경우의 수에 대해서 0이 100개 정도 붙은 숫자를 상상하면 된다고 말했다.

그러나 정말 어려운 수학 문제를 증명하거나 반증하기 위한 경로에 비하면 이는 아주 작은 숫자에 불과하다. 구코프 교수는 “어려운 수학 문제를 증명하는 경로는 수천 또는 수백만 단계로 이루어지며, 이때 가능한 경로에 대한 경우의 수는 0이 수천 개 또는 수백만 개 붙은 숫자에 해당한다”고 말했다.

어떤 AI 시스템도 이렇게 많은 경우의 수를 전부 탐색할 수는 없다. 구코프 교수와 동료들은 이 문제를 해결하기 위해 여러 수(move)를 하나의 슈퍼무브(supermove)로 통합해 경로의 길이를 단축하는 시스템을 개발했다. 이는 마치 한 번에 거대한 발걸음을 내디딜 수 있는 장화를 신은 것과 같다. 2,000걸음을 걸어서 1km를 가는 대신에 이제 20걸음만 걸으면 되는 것이다.

문제는 어떤 수들을 ‘슈퍼무브’로 대체할지 파악하는 것이었다. 연구팀은 여러 실험을 거쳐 강화학습 모델 하나가 새로운 수들을 제안하고 해당 제안이 도움이 되는지를 두 번째 모델이 확인하는 시스템을 만들었다.

연구팀은 이 접근법을 활용하여 60년간 미해결 상태였던 앤드루스-커티스 추측(Andrews-Curtis conjecture)에서 돌파구를 마련했다. 구코프 교수는 이 추측에 대해 “모든 수학자들이 알고 있는 수학 문제”라고 설명했다.

(수학 애호가를 위한 부연 설명: 앤드루스-커티스 추측은 자명군(trivial group, 원소가 하나뿐인 군)이라는 특정 집합을 설명하는 한 가지 방식이 어떤 일정한 단계를 거치면 다르지만 여전히 동등한 설명으로 변환될 수 있다는 내용을 담고 있다. 대부분의 수학자들은 이 추측이 거짓이라고 생각하지만 증명 방법을 아는 사람은 없다. 구코프 교수는 이 문제가 실용적인 문제라기보다는 지적 호기심에 가깝다는 점을 인정한다. 그래도 수학자들에게는 중요한 문제이다.)

구코프 교수와 동료들은 앤드루스-커티스 추측을 완전히 해결하지는 못했지만, 이 추측이 거짓이라며 40년 전 제시된 반증이 거짓이라는 점을 밝혀냈다. 구코프 교수는 “그 반증은 지난 40년간 이 추측에 대한 유력한 공격 방향으로 여겨졌다”고 설명했다. 구코프 교수의 연구팀은 AI를 통해 이 방향이 사실상 막다른 골목이라는 점을 입증했다.

브리드슨 교수는 이에 대해 “가능한 반증을 배제하는 것은 가치 있는 일”이라면서 “막다른 골목을 차단해서 쓸데없는 시간을 낭비하지 않도록 도와준다”고 말했다.

물론 구코프 교수는 난제 한 조각만을 해결했을 뿐이다. 그러나 그는 이 접근법이 아직 알지 못하는 긴 수(move)를 찾아야 하는 모든 문제에 통용될 것이라고 생각하며, 앞으로 다른 문제에도 이를 적용해 볼 계획이다.

구코프 교수는 “이 접근법은 AI의 발전에도 도움이 될 수 있을 것”이라며 “강화학습 모델에 학습 데이터의 한계를 넘는 법을 가르치는 방법이기 때문이고 고정관념을 완전히 벗어나는 방식이기 때문”이라고 설명했다.

3. AI가 진정한 통찰을 제공할 수 있을까?

고정관념에서 벗어나 사고하는 것이야말로 수학자들이 어려운 문제를 풀 때 필요한 요소이다. 수학은 기계적이고 단계적인 절차를 따르는 것으로 여겨지는 경우가 많지만, 고급 수학은 시행착오와 번뜩이는 통찰이 필요한 실험적인 몰두에 가깝다.

이 부분에서 알파이볼브와 같은 도구가 등장한다. 구글 딥마인드의 최신 모델인 알파이볼브는 LLM에 특정 수학 문제를 해결하는 코드를 생성하게 하고, 두 번째 모델이 제안된 해법을 평가하여 최상의 결과를 선택해 다시 LLM으로 보내 개선하게 한다. 수백 번의 시행착오를 거친 끝에 알파이볼브는 다양한 수학 문제에 대해 지금까지 인간이 제시한 것보다 더 나은 해법을 제시할 수 있었다. 그러나 이 시스템은 협업 도구로도 작동한다. 어느 단계에서든 인간이 자신의 생각을 LLM과 공유하고 구체적인 지시를 통해 사고를 유도할 수 있다.

이러한 탐구 방식은 고급 수학의 핵심이다. 호주 시드니 대학교의 조디 윌리엄슨(Geordie Williamson) 수학과 교수는 “나는 자주 흥미로운 현상을 찾아내서 특정 방식으로 스스로를 밀어붙인다”며 “예를 들어 ‘이 골목을 들여다볼까?’하다가 뭔가를 발견하는 식이다”라고 설명했다.

윌리엄슨 교수는 메타와 협력해 이러한 탐구 방식을 지원하기 위한 패턴부스트(PatternBoost)라는 AI 도구를 개발했다. 패턴부스트는 어떤 수학적 아이디어나 명제를 입력하면 그와 유사한 다른 아이디어나 명제들을 생성할 수 있다. 윌리엄슨 교수는 “‘마치 여기 흥미로운 것들이 있는데 뭔지는 잘 모르겠지만 비슷하게 흥미로운 것들을 더 만들어 줄 수 있어?’라고 요청하는 느낌”이라고 설명했다.

이러한 브레인스토밍은 수학에서 새로운 아이디어를 떠올리는 데 필수적인 과정이다. 윌리엄슨 교수는 정이십면체(icosahedron)를 예로 들면서 “정이십면체는 새로운 아이디어의 중요성을 보여주는 아름다운 예시이며 내가 연구에서 계속 몰두하게 되는 주제이기도 하다”고 설명했다. 정이십면체는 모든 면이 삼각형으로 이루어진 20면체 입체도형이다(20개의 면이 있는 주사위를 상상해 보면 된다). 정이십면체는 정다면체 중에서 가장 크며, 나머지 정다면체로는 정사면체, 정육면체, 정팔면체, 정십이면체가 있다.

놀랍게도 이러한 정다면체가 총 5개뿐이라는 사실은 고대 그리스 수학자들이 증명했다. 윌리엄슨 교수는 “이 정리가 증명됐을 당시 정이십면체는 존재하지 않았다”고 말했다. 이어서 그는 “정이십면체는 채석장에 가서 찾을 수 있는 입체도형이 아니라 누군가 머릿속에서 생각해서 발견한 것”이라며 “정이십면체는 수학에 엄청난 영향을 미쳤고 오늘날에도 여전히 상당한 영향을 주고 있다”고 덧붙였다.

윌리엄슨 교수는 패턴부스트와 같은 도구가 정이십면체처럼 수학의 방식 자체에 영향을 미치는 미래의 새로운 수학적 개념이나 구조를 발견하는 데 도움을 줄 수 있을 것이라고 기대한다. 그러나 아직은 그 단계에 도달하지 못했다. 윌리엄슨 교수는 “AI는 연구가 필요한 수준의 문제에 의미 있는 방식으로 기여할 수 있다”면서 “하지만 AI 덕분에 새로운 정리들이 넘쳐나는 상황에는 아직 전혀 이르지 못했다”고 덧붙였다.

결국 문제는 기계가 아직 직관이나 창의적 사고라고 부를 수 있는 능력을 갖추지 못했다는 데 있다. 윌리엄슨 교수는 이에 대해 “현재 AI는 게임의 규칙을 알고 있을 때 인간을 이길 수 있는 수준”이라면서 “하지만 컴퓨터가 바둑을 인간보다 잘 두는 것과 바둑이라는 게임 자체를 만들어내는 것은 완전히 다른 일”이라고 지적했다.

윌리엄슨 교수는 “이는 고급 수학에도 적용되는 말”이라고 말했다. 그는 “돌파구는 어떤 개념에 대해 완전히 새로운 사고방식을 찾는 데서 나오며 이는 게임에서 완전히 새로운 수를 발견하는 것과 같다”면서 “그렇지만 수학에서 그런 기발한 수를 어디서 발견할 수 있는지는 우리도 잘 모른다고 생각한다”고 설명했다.

아마도 알파이볼브와 패턴부스트 같은 AI 도구들은 인간의 직관에 도움을 주는 존재로 바라보는 것이 가장 적절할지도 모른다. 이러한 도구들은 새로운 방향을 제시하고 막다른 골목을 알려줌으로써 몇 달 또는 몇 년이 걸릴 수 있는 수학자들의 연구 기간을 줄여줄 수 있다. 그러나 진정한 돌파구는 지난 수천 년 동안 그래왔듯이 앞으로도 인간의 머리에서 나올 것이다.

적어도 지금으로서는 그렇다. 윌리엄슨 교수는 “많은 기술 기업들은 이 상황이 오래 지속되지 않을 것이라고 말한다”며 “하지만 앞으로 어떻게 될지는 지켜봐야 할 것 같다”고 말했다.

The post AI 시대, 수학은 어디로 향하나 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.