AI 발전을 둘러싼 과열된 해석, METR 그래프의 진짜 의미

AI의 도약을 보여주는 METR 그래프는 유토피아나 종말의 신호로 읽히곤 하지만, 그 해석에는 보다 신중한 접근이 필요하다.

오픈AI, 구글, 앤트로픽이 새로운 최전선급 대형언어모델(LLM)을 내놓을 때마다 인공지능(AI) 업계는 숨을 죽인다. 비영리 AI 연구기관인 ‘METR’이 해당 모델을 분석한 그래프를 공개할 때까지다. 지난해 3월 처음 등장한 이 그래프는 이후 AI 담론에서 상징적인 지표로 자리 잡았다. 특정 AI 능력이 기하급수적으로 발전하고 있음을 보여주는 이 그래프에서 최근 공개된 모델들은 이미 인상적이었던 기존 추세마저 가뿐히 뛰어넘는 성능을 기록하고 있다.

이 같은 흐름은 앤트로픽의 최상위 모델인 ‘클로드 오퍼스 4.5(Claude Opus 4.5)’에서도 뚜렷하게 나타났다. 지난해 11월 말 공개된 이 모델에 대해 METR는 약 한 달 뒤 “인간이라면 약 5시간이 걸릴 작업을 오퍼스 4.5가 독립적으로 수행할 수 있는 것으로 보인다”고 평가했다. 이는 기존의 기하급수적 성장 곡선을 기준으로 예상했던 수준을 크게 웃도는 결과였다.

이 발표가 전해지자 앤트로픽 내부에서도 반응이 나왔다. 한 안전성 연구원은 소셜미디어에 “이 결과를 보고 연구 방향을 바꾸게 됐다”고 적었고, 또 다른 직원은 “엄마, 무서워서 집에 가고 싶어요”라는 짧은 글을 남겼다.

다양한 LLM이 50% 성공 확률로 완료할 수 있는 소프트웨어 작업의 시간 지평 / 가로: LLM 출시 일

하지만 현실은 이런 극적인 반응이 암시하는 것보다 훨씬 복잡하다. 무엇보다 METR가 개별 모델의 능력을 추정할 때 제시하는 수치는 상당한 오차 범위를 전제로 한다. METR도 엑스(X)를 통해 분명히 밝혔듯, 오퍼스 4.5는 인간이 약 2시간 걸려 수행하는 작업만을 안정적으로 해낼 수도 있고, 길게는 20시간이 걸리는 작업에 성공할 가능성도 있다. 평가 방식 자체에 불확실성이 내재돼 있어 어느 쪽이 정확한지 단정하기는 어렵다. METR 기술진의 일원인 시드니 본 아르크스(Sydney Von Arx)는 “많은 사람들이 이 그래프를 지나치게 확대 해석하고 있다”고 말했다.

더 근본적으로 보면 METR의 그래프는 AI 능력 전반을 측정하는 지표가 아니다. 애초에 그런 목적을 표방하지도 않는다. 이 그래프는 주로 코딩 과제를 대상으로 모델을 시험한 결과를 바탕으로 만들어졌으며, 각 과제의 난이도는 인간이 이를 완료하는 데 걸리는 시간을 측정하거나 추정하는 방식으로 평가된다. 그러나 인간이 들인 시간으로 과제의 난이도를 가늠하는 이 기준에 대해 회의적인 시각도 적지 않다. 오퍼스 4.5가 인간에게 5시간이 걸리는 특정 작업을 수행할 수 있다고 해서, 곧바로 인간 노동자를 대체할 수준에 이르렀다는 의미는 아니다.

METR은 최전선급 AI 시스템이 초래할 수 있는 위험을 평가하기 위해 설립된 연구기관이다. 기하급수적 성장 곡선을 담은 그래프로 가장 널리 알려졌지만, 그간 AI 기업들과 협력해 개별 시스템을 보다 정밀하게 평가해 왔고 여러 독립적인 연구 결과도 발표해 왔다. 그 가운데에는 2025년 7월 공개돼 큰 주목을 받은 연구도 포함돼 있다. 이 연구는 AI 코딩 보조 도구가 기대와 달리 소프트웨어 엔지니어의 작업 속도를 오히려 늦출 수 있다는 점을 시사했다.

이 기하급수적 그래프는 METR의 존재를 널리 알린 계기이기도 하지만, 동시에 과도한 관심과 해석을 불러온 원인이기도 하다. 이 그래프를 둘러싼 반응에 대해 METR 역시 복잡한 입장을 갖고 있는 것으로 보인다. 지난 1월, 그래프를 처음 소개한 논문의 공동 주저자 가운데 한 명인 토머스 콰(Thomas Kwa)는 일부 비판에 대응하고 그래프의 한계를 분명히 하기 위해 블로그 글을 공개했다. METR 또한 보다 상세한 설명을 담은 FAQ 문서를 준비 중이다. 다만 토머스 콰는 이런 노력이 AI 담론의 흐름을 실질적으로 바꿀 수 있을지에 대해서는 회의적이다. 그는 “우리가 아무리 설명을 덧붙여도 과열된 관심은 결국 모든 맥락을 걷어내 버릴 것”이라고 말했다.

그럼에도 METR 연구진은 이 그래프가 AI 발전의 방향성에 대해 의미 있는 신호를 담고 있다고 본다. 아르크스는 “이 그래프에 인생을 걸어서는 절대 안 된다”고 선을 그으면서도 “그럼에도 이 추세 자체는 계속 이어질 가능성이 크다고 본다”고 말했다.

METR 그래프를 둘러싼 혼란의 한 이유는 이 그래프가 겉보기보다 훨씬 복잡한 정보를 담고 있기 때문이다. 각 AI 모델이 공개된 시점을 나타내는 가로축은 비교적 단순하지만, 세로축은 사정이 다르다. 여기에는 METR이 자체적으로 고안한 ‘시간 지평(time horizon)’이라는 다소 생소한 지표가 표시돼 있는데, 토머스 콰와 아르크스에 따르면 이 개념은 특히 자주 오해를 불러온다.

이 ‘시간 지평’이 무엇을 의미하는지 이해하려면 METR이 이를 산출하기 위해 어떤 과정을 거쳤는지를 살펴볼 필요가 있다. METR 연구진은 먼저 간단한 객관식 문제부터 복잡한 코딩 과제에 이르기까지, 소프트웨어 엔지니어링과 관련된 다양한 작업을 모았다. 이후 인간 프로그래머들이 이 과제들을 직접 수행하도록 하고 완료까지 걸린 시간을 측정했다. 이렇게 각 과제마다 인간 기준의 소요 시간이 설정됐다. 몇 초 만에 끝나는 작업도 있었고, 수 시간이 필요한 과제도 있었다.

이 일련의 과제들로 LLM을 시험한 결과 고급 모델들은 비교적 짧은 작업은 큰 어려움 없이 수행했다. 그러나 인간이 더 많은 시간을 들여야 하는 과제일수록 모델의 정확도는 점차 낮아졌다. 연구진은 이런 성과를 토대로 인간을 기준으로 한 과제 소요 시간 축에서 해당 모델이 약 절반의 과제를 성공적으로 수행하는 지점을 계산했다. 이 지점이 바로 모델의 ‘시간 지평’이다.

이 같은 산출 방식과 개념에 대한 자세한 설명은 METR이 시간 지평 그래프를 처음 공개할 당시 함께 발표한 블로그 글과 학술 논문에 담겨 있다. 그러나 그래프가 이런 맥락 없이 소셜미디어를 통해 빠르게 확산되면서, 시간 지평이라는 지표의 의미가 자주 왜곡돼 전달되고 있다. 대표적인 오해는 그래프의 세로축에 표시된 수치가 모델이 독립적으로 작동할 수 있는 시간을 뜻한다는 해석이다. 예컨대 오퍼스 4.5의 ‘약 5시간’이라는 값이 그런 의미로 받아들여지곤 한다. 하지만 이는 사실이 아니다. 이 수치는 모델이 수행할 수 있는 과제를 인간이 완료하는 데 걸리는 시간을 가리킨다.

토머스 콰는 이런 오해를 반복해서 접한 끝에 최근 공개한 블로그 글의 서두에서 이를 바로잡는 설명을 덧붙였다. 그는 온라인에서 유통되는 그래프에 어떤 보완이 필요하냐는 질문에 “과제 소요 시간이 언급되는 모든 지점에 ‘인간’이라는 단어를 분명히 표시해야 할 것 같다”고 말했다.

시간 지평이라는 개념은 복잡하고 오해의 소지가 있지만 기본적인 직관은 비교적 명확하다. 시간 지평이 1시간인 모델은 소프트웨어 엔지니어 업무의 일부를 자동화할 수 있는 수준인 반면, 40시간에 이르는 모델이라면 며칠 분량의 작업을 스스로 처리할 가능성도 있다. 다만 인간이 과제를 수행하는 데 걸리는 시간이 AI의 능력을 정량화하는 데 적절한 기준인지를 두고는 이견도 존재한다. 캘리포니아대학교에서 모델 평가를 연구하는 이니올루와 데보라 라지(Inioluwa Deborah Raji) 박사과정 연구원은 “어떤 작업이 더 오래 걸린다고 해서 반드시 더 어려운 과제라고 단정할 수는 없다”고 지적했다.

아르크스는 “자신 역시 처음에는 시간 지평이 적절한 지표인지에 대해 회의적이었다”고 밝혔다. 그의 생각이 바뀐 계기는 본인과 동료들이 직접 수행한 분석 결과를 확인하면서였다. 연구진은 2025년 초를 기준으로 주요 모델들의 50% 시간 지평을 계산해 하나의 그래프에 올렸고, 그 결과 최상위 모델들의 시간 지평이 시간이 지날수록 늘어났을 뿐 아니라 증가 속도마저 빨라지고 있음을 확인했다. 대략 7개월마다 시간 지평이 두 배로 늘어나는 흐름이었다. 이는 가장 진보한 모델들이 2020년 중반에는 인간에게 9초 걸리던 작업을, 2023년 초에는 4분이 걸리던 작업을, 2024년 말에는 40분이 걸리던 작업을 수행할 수 있게 됐다는 의미다. 아크르스는 “이 지표가 과연 타당한지에 대해 아무리 이론적으로 고민하더라도 이런 추세 자체는 분명히 존재한다”고 말했다.

이처럼 극적인 패턴이 METR 그래프를 단숨에 화제의 중심으로 끌어올렸다. 많은 이들은 2030년까지 초지능 AI가 인류를 멸망시킬 수 있다는 가정을 담은 SF이자 정량적 전망서인 ‘AI 2027’을 통해 이 그래프를 처음 접했다. ‘AI 2027’ 저자진은 METR 그래프를 주요 근거로 삼아 여러 예측을 전개했고, 이를 광범위하게 인용했다. 아르크스는 이에 대해 “많은 사람들이 우리의 연구를 기억하는 방식이 이렇게 강한 해석이 덧입혀진 형태라는 점이 다소 낯설게 느껴진다”고 말했다.

물론 METR 그래프를 언급하는 모든 이들이 대규모 파괴나 인류 멸망을 떠올리는 것은 아니다. 일부 AI 낙관론자들에게 이 기하급수적 추세는 AI가 머지않아 급진적인 경제 성장의 시대를 열 것이라는 신호로 읽힌다. 예컨대 벤처캐피털 기업 세쿼이아 캐피털(Sequoia Capital)은 최근 ‘2026: 이것이 범용인공지능(AGI)이다’라는 제목의 글을 공개하며 “METR 그래프를 근거로 직원이나 계약자처럼 역할을 수행하는 AI가 곧 등장할 것”이라고 주장했다. 해당 글의 공동 저자인 소냐 후앙(Sonya Huang) 세쿼이아 제너럴 파트너는 “AI로 인해 계획의 단위가 수백 년까지 확장될 수 있는 상황에서 우리가 어떤 선택을 하게 될지 묻고 싶다”고 말했다.

METR 그래프에서 어떤 모델이 시간 지평 1시간을 기록했다고 해서 그 모델이 현실 세계에서 인간의 노동 1시간을 그대로 대체할 수 있다는 뜻은 아니다. 무엇보다 평가에 사용된 과제 자체가 실제 업무에 수반되는 복잡함과 혼란을 충분히 반영하지 못한다는 한계가 있다. 토머스 콰와 아르크스를 비롯한 연구진은 초기 연구에서 각 과제의 ‘복잡성(messiness)’을 별도로 정량화했다. 이는 모델이 평가 기준을 명확히 인지하고 있는지, 실수를 했을 경우 쉽게 처음부터 다시 시도할 수 있는지 등을 기준으로 삼은 것이다. 복잡한 과제에서는 이 두 조건이 모두 충족되지 않는다. 연구진은 이런 과제에서 모델의 성능이 눈에 띄게 떨어진다는 점을 확인했지만, 성능 향상이라는 전체적인 추세 자체는 복잡한 과제와 그렇지 않은 과제 모두에서 유지된다는 점도 함께 확인했다.

그럼에도 METR이 분석에 포함한 과제 가운데 가장 난도가 높은 경우조차, AI가 대부분의 직무를 수행할 수 있는지를 판단하기에는 충분한 정보를 제공하지 못한다. 그래프가 거의 전적으로 코딩 과제를 바탕으로 만들어졌기 때문이다. 다니엘 강(Daniel Kang) 일리노이대학교 컴퓨터과학 조교수는 “모델의 코딩 능력이 향상될 수는 있지만 그렇다고 해서 다른 모든 영역의 능력이 자동으로 개선되는 것은 아니다”라고 지적했다. 토머스 콰와 연구진은 후속 연구에서 다른 분야의 과제에서도 시간 지평이 기하급수적으로 증가하는 경향이 나타난다는 점을 확인했지만, 이 연구는 상대적으로 비공식적인 수준에 머물렀다.

이런 한계에도 불구하고 METR의 연구는 학계 안팎에서 높은 평가를 받고 있다. 캉은 “METR 연구는 이 분야에서 보기 드물 만큼 연구 설계가 매우 정교한 사례 가운데 하나”라고 평가했다. LLM에 대해 비판적 시각을 유지해 온 개리 마커스(Gary Marcus) 전 뉴욕대학교 교수 역시 블로그 글을 통해 “이 그래프를 만드는 데 투입된 작업의 상당 부분이 훌륭하다”고 평했다.

앞으로도 METR 그래프를 AI가 불러올 파국의 전조로 해석하는 시선은 사라지지 않을 가능성이 크다. 그러나 이 그래프가 실제로 보여주는 것은 훨씬 담백하다. 사람들이 막연히 느껴 온 AI 발전 속도를 구체적인 수치로 옮긴 신중하게 설계된 과학적 도구에 가깝다. METR 연구진 스스로도 인정하듯 이 지표는 결코 완벽하지 않다. 그럼에도 변화 속도가 빠르고 아직 기준이 정립되지 않은 영역에서는 불완전한 도구일지라도 충분히 의미 있는 역할을 할 수 있다.

아르크스는 “많은 제약 속에서 지표를 만들어 보려 애쓴 사람들의 결과물”이라며 “여러 측면에서 심각한 한계를 안고 있는 것도 사실”이라고 말했다. 그러면서도 그는 “그럼에도 이런 종류의 시도로서는 최선의 결과물이라고 생각한다”고 덧붙였다.

The post AI 발전을 둘러싼 과열된 해석, METR 그래프의 진짜 의미 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.