스스로 진화하는 인공지능의 다섯 가지 비밀

오늘날 인공지능 분야는 대형언어모델(LLM)을 중심으로 빠르게 진화하고 있다. 코딩부터 하드웨어까지, AI가 그 어느 때보다 빠르게 발전 속도를 높이고 있는 과정을 살펴보자.

마크 저커버그는 최근 메타가 ‘인간보다 더 똑똑한 인공지능(AI)’을 개발하는 것을 목표로 하고 있다고 밝혔다. 지난 몇 달간 언론에 비친 행보는 이를 달성하기 위한 그의 전략을 짐작할 수 있게 해 준다. 그 중 첫 번째는 인재다. 보도에 따르면 저커버그는 메타의 초지능 연구소(Meta Superintelligence Labs, MSL)에 최고 수준의 연구원들을 영입하기 위해 수억 달러란 파격적인 연봉을 제시한 것으로 알려졌다. 두 번째는 AI 그 자체다. 저커버그는 최근 실적 발표에서 메타 초지능 연구소가 스스로 성능을 끊임없이 향상시키는 ‘자기 개선형 AI’ 개발에 집중할 것이라고 말했다.

기술이 스스로 개선하고 발전할 수 있는 경우는 매우 드물다. 이 점에서 AI는 세상의 여러 혁신적인 기술과도 뚜렷이 구별된다. 예를 들어 크리스퍼(CRISPR) 유전자 편집 기술은 DNA 서열 표적 방식을 스스로 개선할 수 없고, 핵융합로는 상용화 방법을 스스로 찾아낼 수 없다. 그러나 대형언어모델(LLM)은 자신을 구동하는 연산 장치를 최적화하고, 다른 LLM을 저렴하고 효율적으로 학습시키며, 어쩌면 AI 연구를 위한 독창적인 아이디어도 제안할 수 있다. 실제로 LLM은 이미 이 모든 영역에서 어느 정도의 성과를 보여주고 있다.

저커버그는 AI의 자기 개선 능력이 인간을 일상의 고된 노동에서 해방시켜줄 전환점이 될 수 있다고 본다. 그렇게 된다면 사람들은 탁월한 능력과 극대화된 효율성을 갖춘 인공지능 동반자의 도움으로 각자의 궁극적인 목표에 전념할 수 있을 것이다. 그러나 AI 연구 비영리단체 METR(Model Evaluation and Threat Research)의 크리스 페인터(Chris Painter) 정책 책임자는 “자기 개선 기술에는 근본적인 위험이 숨어 있다”고 경고했다. 그는 “AI가 자신의 역량 발전 속도를 올린다면 해킹이나 무기 설계, 인간 심리 조작 같은 위험 영역에서도 급격한 성장을 이룰 수 있다”고 지적했다. 일부 연구자들은 이러한 긍정적 피드백이 ‘지능 폭발(intelligence explosion)’로 이어져 AI가 단기간에 인간의 능력을 훨씬 뛰어넘는 수준으로 도약할 수 있다고 전망했다.

그렇다고 자기 개선형 AI의 함의를 진지하게 받아들이는 것이 곧 비관론으로 이어져야 하는 것은 아니다. 오픈AI, 앤트로픽, 구글 등 주요 기업들은 자동화된 AI 연구를 화학 무기, 사이버 보안과 같은 대표적인 위험 요소와 동등한 수준으로 AI 안전 프레임워크에 포함시키고 있다. 브리티시컬럼비아대 컴퓨터과학 교수이자 구글 딥마인드 수석 연구 고문인 제프 클룬(Jeff Clune)은 “강력한 AI로 가는 가장 빠른 지름길이라고 생각한다”며 “앞으로 우리가 가장 집중해서 고민해야 할 사안”이라고 강조했다.

같은 맥락에서 클룬은 AI 연구·개발의 자동화가 막대한 이점을 가져올 수 있다고 전망했다. 인간의 힘만으로는 풀기 어려운 암이나 기후변화와 같은 거대한 난제를 언젠가 AI가 해결할 수 있을지도 모른다는 것이다.

현재까지는 인간의 창의력이 AI 발전의 핵심 동력이다. 그렇지 않다면 메타가 초지능 연구소에 인재를 영입하기 위해 그토록 파격적인 연봉을 제시했을 리 없다. 그러나 AI는 이미 자기 발전에 기여하고 있으며, 앞으로 그 비중은 더 커질 것이다. 다음은 AI가 자신의 능력을 개선하는 다섯 가지 방식이다.

1. 생산성 향상

오늘날 LLM이 AI 발전에 가장 크게 기여하는 역할은 그 중요성에 비해 단순해 보일 수 있다. 바로 ‘코딩 보조’다. AI 연구 비영리단체 포어소트(Forethought)의 톰 데이비슨(Tom Davidson) 수석 연구원은 “가장 큰 변화는 코딩 지원에 있다”고 말했다. 클로드 코드(Claude Code), 커서(Cursor)처럼 개발자의 소프트웨어 작성 속도를 높여주는 도구들은 AI 업계 전반에서 인기를 끌고 있다. 순다르 피차이 구글 CEO는 2024년 10월 자사 신규 코드의 4분의 1을 AI가 만들었다고 발표했다. 앤트로픽 역시 직원들이 클로드 코드를 활용하는 다양한 사례를 공개했다. 이런 코딩 지원이 실제로 개발자들의 생산성 향상으로 이어진다면 새로운 AI 시스템을 설계, 테스트, 배포하는 속도도 빨라질 수 있다.

그러나 생산성이 얼마나 향상되는지는 아직 명확하지 않다. AI 시스템이 만들어낸 오류를 수정하는 데 많은 시간이 소요된다면, 코딩 시간은 줄어들더라도 전체 업무 효율이 개선되지는 않을 수 있다. 실제로 METR의 최근 연구에 따르면 AI 코딩 보조를 활용한 개발자들은 오히려 과제 수행 시간이 약 20% 더 증가한 것으로 나타났다. 다만 이 연구를 공동 주도한 METR 기술팀의 네이트 러시(Nate Rush) 연구원은 “이번 연구는 코드의 양이 방대하고 구조가 복잡한 대규모 코드베이스에서 작업하는 고도의 숙련 개발자만을 대상으로 했기에, 간단한 실험용 스크립트를 작성하는 AI 연구자들에게는 결과가 다를 수 있다”고 설명했다.

이어 러시는 “최첨단 AI 연구소와 같은 곳에서 비슷한 방식으로 연구를 진행하면 최첨단 AI 연구자들의 생산성에 대해 훨씬 명확한 그림을 얻을 수 있을 것”이라면서도, “아직 그런 연구는 이뤄지지 않았다”고 말했다. 또한 그는 “개발자들의 주관적 평가는 정확한 결과를 도출하기에는 충분하지 않다”고 덧붙였다. METR 연구 대상자들은 AI 코딩 도구 덕분에 업무 효율이 높아졌다고 느꼈으나 실제로는 업무 속도가 상당히 느려지고 있었다.

2. 인프라 최적화

효율성을 높이기 위해서는 단순히 코딩 속도를 높이는 것만으로는 부족하다. 작성한 코드를 실행해 결과를 확인하기까지 몇 시간, 며칠, 혹은 몇 주에 이르는 긴 대기 시간이 발생하면 효율성 향상에 큰 제약이 된다. 특히 LLM 학습은 매우 더디게 진행되는 느린 과정이며, 고도로 정교한 추론 모델들은 한 응답을 생성하는 데 수 분이 걸리기도 한다. 스탠퍼드대 컴퓨터과학 조교수이자 구글 딥마인드의 수석 과학자인 아잘리아 미르호세이니(Azalia Mirhoseini)는 이런 지연이 AI 개발의 주요 병목 현상이라고 지적하며, “AI의 실행 속도를 높일 수 있다면 혁신도 가속할 수 있다”고 말했다.

이러한 이유로 미르호세이니는 AI 칩 최적화에 AI를 활용해 왔다. 2021년 그녀는 구글 동료들과 함께 컴퓨터 칩 내 부품 배치를 설계해 효율성을 극대화하는 비LLM(non-LLM) 기반 AI 시스템을 개발했다. 일부 연구자들이 이 결과를 재현하는 데 실패한 사례가 있었지만, 미르호세이니는 저명 학술지 <네이처(Nature)>가 논문을 검증해 연구의 유효성을 인정했으며 구글이 이 시스템 설계를 여러 세대의 맞춤형 AI 칩에 적용했다고 설명했다.

최근 그녀는 LLM을 이용해 행렬 곱셈 같은 다양한 연산의 수행 방식을 제어하는 저수준 함수(low-level functions)인 커널(kernel)을 작성에 도전하고 있다. 이 과정에서 경우에 따라 일반 목적의 LLM조차 인간이 설계한 커널보다 더 빠르게 실행되는 코드를 만들 수 있다는 사실을 확인했다.

다른 구글 연구진은 자사 LLM 인프라의 여러 부분을 최적화하는 시스템인 알파이볼브(AlphaEvolve)를 개발했다. 이 시스템은 구글의 제미나이(Gemini) LLM에 특정 문제 해결 알고리즘을 작성하도록 지시하고, 알고리즘을 평가한 뒤 가장 좋은 성과를 낸 알고리즘을 개선하라고 반복적으로 요청한다. 알파이볼브는 데이터센터 운영 방식을 새롭게 설계해 구글의 컴퓨팅 자원을 0.7% 절감하는 데 성공했다. 또한 구글 맞춤형 칩 설계를 개선했으며, 새 커널을 설계해 제미나이의 학습 속도를 1% 높였다.

숫자만 보면 미미해 보이지만 구글처럼 규모가 큰 기업에서는 이러한 개선이 막대한 시간과 비용, 에너지 절감으로 이어진다. 알파이볼브 프로젝트를 이끈 구글 딥마인드의 마테이 발로그(Matej Balog) 연구원은 “우리는 제미나이의 전체 학습 파이프라인 중 극히 일부에 해당 시스템을 적용했다”며, “적용 범위를 넓히면 절감 효과가 훨씬 커질 것”이라고 말했다.

3. 학습 자동화

LLM 학습에는 방대한 데이터와 함께 전 과정에 걸쳐 막대한 비용이 필요하다. 특히 비주류 프로그래밍 언어처럼 애초에 관련 데이터가 드문 분야에서는 효과적인 학습이 이루어지기 어렵다. 그동안은 이런 문제를 해결하기 위해 ‘인간 피드백 기반 강화 학습(RLHF)’이 활용되어 왔다. RLHF는 인간이 LLM의 답변을 평가하고 그 점수를 바탕으로 모델을 다시 학습시켜, 모델이 인간의 기준과 선호에 맞춰 작동하도록 만드는 핵심 기법이다. 문제는 인간 피드백을 수집하는 데는 많은 시간과 비용이 든다는 것이다.

최근에는 이러한 공백을 사람이 아닌 LLM 스스로 메우는 방식이 주목받고 있다. LLM에 일정 수준 이상의 예시를 제공하면 학습하지 않은 영역에서도 그럴듯한 합성 데이터를 생성할 수 있고, 이를 다시 학습에 활용할 수 있다. LLM은 강화 학습 과정에서도 효과적으로 쓰인다. 예를 들어 ‘LLM 심판(LLM as a judge)’ 방식은 사람이 아닌 LLM이 다른 모델의 답변을 평가하는 기법이다. 이 접근법은 2022년 앤트로픽 연구진이 제안해 큰 관심을 모은 ‘헌법적 AI(Constitutional AI)’ 프레임워크의 핵심이기도 하다. 여기서는 한 LLM이 다른 LLM으로부터 법적·철학적 원칙에 기반한 윤리 규칙을 피드백 받아 유해성을 줄이는 방향으로 훈련된다.

데이터 기근은 특히 AI 에이전트 분야에서 심각하다. 효율적으로 작동하는 에이전트라면 특정 과제를 수행하기 위해 여러 단계에 걸친 계획을 세워야 한다. 하지만 온라인상에는 단계별로 과제를 성공적으로 수행한 사례가 거의 없다. 게다가 사람이 직접 이런 사례를 새로 만들어내려면 많은 비용이 든다. 이 한계를 극복하기 위해 스탠퍼드대의 미르호세이니와 동료들은 최근 새로운 기법을 시범 도입했다. 먼저 LLM 에이전트가 주어진 문제에 대한 단계별 접근 방안을 제시하면, LLM 심판이 각 단계의 타당성을 평가하고, 검증된 단계를 바탕으로 새로운 LLM 에이전트를 학습시키는 방식이다. 미르호세이니는 “이제 데이터에 제약받지 않고 모델이 원하는 만큼 무한히 새로운 경험을 만들어낼 수 있다”고 말했다.

4. 에이전트 설계 완성하기

LLM이 아직 크게 활약하지 못한 분야 중 하나는 바로 LLM 자체 설계다. 현재 사용되는 모든 LLM은 2017년 인간 연구자들이 제안한 ‘트랜스포머(transformer)’라는 신경망 구조를 기반으로 한다. 이후 이루어진 주요 개선 사항 역시 모두 인간의 손을 거쳤다.

하지만 LLM 에이전트가 부상하면서 기존의 LLM 설계 방식만으로는 해결할 수 없는 새로운 과제가 생겼다. 에이전트는 외부 세계와 상호작용을 하기 위해 다양한 도구와 그 사용법에 대한 지침이 필요하다. 이러한 도구와 지침을 최적화하는 것은 필수적이지만, 그 양이 너무 방대해지면 인간이 일일이 개입하기 어렵다. 이에 따라 AI가 스스로 개선하도록 하는 접근이 등장했다. 클룬은 “세상에는 인간이 아직 시험해 보지 못한 아이디어가 많지만, 늘 시간이 부족하다. 최적의 아이디어들을 AI 시스템을 통해 찾아내게 하는 편이 더 효율적이다”라고 말했다.

클룬은 사카나 AI(Sakana AI)라는 스타트업의 연구자들과 함께 ‘다윈 괴델 머신(Darwin Gödel Machine)’이라는 시스템을 개발했다. 이 LLM 에이전트는 자신의 프롬프트, 도구, 코드의 여러 부분을 반복적으로 수정하며 과제 수행 능력을 끌어올린다. 그 결과 다윈 괴델 머신은 자기 개선을 통해 더 높은 과제 점수를 달성했을 뿐 아니라, 진화 과정에서 초기 버전은 전혀 발견하지 못했던 새로운 개선 지점까지 찾아냈다. 말 그대로 스스로 발전하는 자기 개선 루프에 들어선 것이다.

5. AI 연구 고도화

LLM이 개발 파이프라인 곳곳을 가속하고 있지만, 당분간은 인간이 AI 연구에 필수적인 역할을 할 가능성이 크다. 많은 전문가들은 그 이유로 이른바 ‘연구 취향(research taste)’을 꼽는다. 연구 취향이란 최고의 과학자들이 유망한 연구 질문과 방향을 골라내는 능력을 말한다. 이는 AI가 습득하기 특히 어렵지만 AI 발전에 반드시 필요한 요소로 여겨진다.

하지만 클룬은 연구 취향이 AI에게 생각만큼 어려운 과제는 아닐 수 있다고 말했다. 그는 사카나 AI 연구자들과 함께 ‘AI 사이언티스트(AI Scientist)’라 불리는 종단형(end-to-end) AI 연구 시스템을 개발 중이다. 이 시스템은 스스로 과학 논문을 검색해 연구 질문을 설정하고, 그 질문에 답하기 위한 실험을 진행한 뒤 결과를 논문 형식으로 작성한다.

올해 초 AI 사이언티스트는 학습 데이터의 다양한 예시를 더 잘 응용하도록 신경망을 훈련하는 새로운 전략을 고안하고 실험한 논문을 작성했다. 이 논문은 해당 워크숍 주최 측의 동의 하에 국제머신러닝학회(International Conference on Machine Learning, ICML) 워크숍에 익명으로 제출됐다. 비록 해당 전략이 실제로는 효과가 없었고, 워크숍이 본 학회보다 채택 기준이 낮지만, 이 논문은 심사위원 평가에서 넉넉한 점수를 받아 채택됐다. 또 클룬은 AI 사이언티스트가 제안한 연구 아이디어가 나중에 한 인간 연구자에 의해 X(옛 트위터)에 독립적으로 공개돼 다른 과학자들로부터 큰 관심을 받았던 사례도 언급했다.

클룬은 “지금 우리는 AI 사이언티스트의 GPT-1 단계에 와 있다”며 “앞으로 몇 년 안에 세계 최고 수준의 학회와 학술지에 실릴 논문을 쓰고, 완전히 새로운 과학적 발견을 해낼 것”이라고 내다봤다.

초지능은 다가오고 있을까?

AI의 자기 개선 능력에 대한 관심이 커지면서 앞으로 몇 달, 몇 년 사이 AI가 스스로 발전에 기여하는 정도도 더욱 늘어날 것으로 보인다. 저커버그의 말에 따르면 이러한 흐름은 여러 분야에서 인간을 능가하는 초지능 모델이 머지않아 등장할 수 있다는 기대를 품게 한다. 그러나 현실에서는 자기 개선 AI의 영향력이 확실하지 않다.

알파이볼브는 자사 핵심 LLM 시스템인 제미나이의 학습 속도를 1%가량 향상시켰으나, 이 정도 속도 향상만으로는 구글 AI 발전의 전반적인 속도가 크게 달라지지는 않을 듯하다. 알파이볼브 프로젝트의 마테이 발로그 연구원은 “이것은 여전히 매우 느린 피드백 루프”라며 “제미나이의 학습 자체가 상당한 시간이 걸리므로, 이 선순환의 흥미로운 시작을 확인할 수는 있지만 전체 과정은 여전히 매우 느리다”고 말했다.

만약 제미나이의 후속 버전들이 매번 학습 속도를 1%씩 추가로 높인다면, 그 가속 효과는 누적될 것이다. 또 세대가 거듭될수록 이전보다 더 뛰어난 능력을 갖추게 되어, 학습 속도 향상뿐 아니라 자신을 개선하는 다른 여러 방식을 개발할 수도 있다. 이런 상황을 두고 초지능론자들은 결국 지능 폭발이 불가피하다고 주장한다.

하지만 이런 결론은 중요한 점을 간과하고 있다. 바로 혁신은 시간이 지날수록 점점 어려워진다는 사실이다. 모든 과학 분야가 그렇듯 초창기에는 발견이 빠르고 수월하다. 이전에 시도된 적 없는 명확한 실험과 아이디어가 풍부하기 때문이다. 그러나 딥러닝 과학이 성숙해질수록 추가적인 개선점을 찾아내려면 인간과 AI 협력자 모두 훨씬 더 많은 노력이 필요할 것이다. 결국 AI 시스템이 인간 수준의 연구 능력에 도달할 무렵에는 이미 인간이나 덜 발전한 AI가 쉬운 과제들을 대부분 해결했을 가능성도 있다.

따라서 AI 자기 개선이 실제 세계에 미치는 영향을 정확히 가늠하기는 매우 어렵다. 게다가 최첨단 AI 기업 내부에서 사용되며 AI 개발에 가장 중요한 역할을 하는 시스템들은 일반 대중에 공개된 모델보다 훨씬 발전했을 가능성이 높다. 즉 공개된 모델의 성능 기준으로 오픈AI의 내부 상황을 추론하는 데에는 한계가 있다.

그럼에도 외부 연구진들은 최선을 다해 AI 개발 속도의 변화를 추적하며 그 가속 여부를 살피고 있다. METR은 인간이 수행하는 데 걸리는 시간과 최신 AI 시스템이 독자적으로 해결하는 작업 시간을 비교하며 AI 능력 발전을 모니터링해왔다. 그 결과 2019년 GPT-2 출시 이후 AI가 독립적으로 해결할 수 있는 작업 소요 시간이 7개월마다 두 배로 줄어든 것으로 나타났다.

특히 2024년부터는 작업 시간 두 배 단축 주기가 7개월에서 4개월로 줄어들어 AI 발전 속도가 실제로 가속화되고 있음을 보여준다. 이러한 가속 현상에는 투자자 자금이 풍부한 최첨단 AI 연구소들이 신규 연구 인력과 하드웨어를 대거 확충한 현실적인 요인도 있지만, AI 자기 개선 역시 일정 부분 기여했을 가능성이 크다.

포어소트의 톰 데이비슨 연구원은 AI가 적어도 일정 기간은 스스로 발전을 촉진할 것으로 기대할 만한 충분한 근거가 있다고 말했다. METR 연구에 따르면 현재 인간 연구자들 사이에서는 저성장 구간(수확 체감 현상)이 크게 나타나지 않거나, 투자의 증가가 이를 상쇄하고 있는 것으로 보인다. 만약 AI가 인간 연구자의 생산성을 크게 높이거나 연구 업무 일부를 대신 수행한다면, 연구 속도는 더욱 가속될 것이다.

데이비슨은 “AI 발전이 가속되는 시기가 반드시 올 것”이라면서도 “문제는 그 시기가 얼마나 오래 지속되느냐”라고 덧붙였다.

The post 스스로 진화하는 인공지능의 다섯 가지 비밀 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.