더 나은 AI 벤치마크를 구축하는 방법

AI 모델을 테스트하고 측정하는 방식을 개선하기 위해 연구자들은 사회과학 분야의 접근법을 도입하고 있다.

실리콘밸리에서 인기 있는 벤치마크 중 하나로 자리 잡기는 결코 쉽지 않다.

출시 후 몇 달 만에 AI 분야에서 가장 인기 있는 테스트로 급부상한 SWE-벤치(SWE-Bench)를 예를 들어 보자. 인공지능(AI) 모델의 코딩 능력을 평가하기 위해 2024년 11월에 출시된 이 벤치마크는 온라인 코드 저장소 플랫폼인 깃허브(GitHub)에서 공개된 파이썬(Python) 언어 기반 오픈소스 프로젝트 12개에서 가져온 2,000여 개의 실제 프로그래밍 문제를 평가에 활용하고 있다.

SWE-벤치의 점수는 오픈AI, 앤트로픽, 구글이 주요 AI 모델을 출시할 때 성능을 검증하는 중요한 기준이다. 또한 파운데이션 모델을 직접 개발하지 않는 AI 기업들조차도 미세조정을 통해 경쟁에서 앞서기 위해 치열하게 점수를 겨루고 있다. 점수표의 맨 위에서는 앤트로픽의 클로드 소네트 모델을 미세조정한 세 가지 모델과 아마존 Q 디벨로퍼(Amazon Q Developer) 에이전트가 경쟁하고 있다. 클로드 기반 AI 에이전트 플랫폼인 오토 코드 로버(Auto Code Rover)는 지난해 11월에 2위를 차지한 후 불과 세 달 뒤인 올해 2월, 코드 품질 및 보안 솔루션 분야의 선도 기업인 소나(Sonar) 인수됐다.

이처럼 뜨거운 열기에도 불구하고 SWE-벤치의 점수표 순위가 반드시 ‘어느 모델이 실제로 더 우수한지’를 보여주는 것은 아니다. 프린스턴 대학교에서 SWE-벤치를 개발한 연구팀의 존 양(John Yang) 연구원은 “SWE-벤치가 유명해지면서 사람들이 1위를 차지하고 싶어서 안달하는 모습을 보이기 시작했다”고 말했다. 그 결과, 참가자들이 점점 이 시스템의 허점을 찾아서 모델을 조작하기 시작했고, 이를 계기로 많은 사람들이 AI의 성과를 제대로 측정하는 더 좋은 방법이 없는지 고민하게 되었다.

코딩 모델 개발자들은 직접적인 부정 행위를 저지르지 않더라도 해당 벤치마크의 요구 사항에 지나치게 딱 맞춰진 접근 방식을 택하고 있다. 초기 SWE-벤치 테스트 세트는 파이썬으로 작성된 프로그램만을 대상으로 했기 때문에 개발자들은 모델을 파이썬 코드로만 학습시켜서 유리한 점수를 얻을 수 있었다. 얼마 지나지 않아 양 연구원은 SWE-벤치에서 고득점을 받은 모델이 다른 프로그래밍 언어로 테스트할 때는 테스트를 전혀 통과하지 못한다는 사실을 발견했고, 이를 가리켜 ‘겉만 번지르르한(glided)’ 방식이라고 표현했다.

양 연구원은 이러한 모델에 대해 “언뜻 보기에는 멋지고 반짝이는 것 같지만 다른 언어로 실행하면 전체 시스템이 무너져 버린다”며 “이쯤 되면 소프트웨어 엔지니어링 에이전트를 설계하는 게 아니라 SWE-벤치용 에이전트를 만들고 있는 것이나 다름없다”고 비판했다.

SWE-벤치 논란은 AI 평가 방식 전반에 걸친 더 크고 복잡한 문제의 한 단면이다. 그리고 이 문제는 점점 더 격렬한 논쟁을 불러일으키고 있다. AI 업계에서 모델 개발의 지침으로 사용하는 벤치마크들이 실제 역량을 평가하는 것에서 점점 더 멀어지면서 벤치마크의 근본적인 가치 자체가 의심받고 있는 것이다. 프런티어매스(FrontierMath), 챗봇 아레나(Chatbot Arena)와 같은 몇몇 벤치마크들이 최근 투명성이 부족한 게 아니냐는 의심을 받자 상황이 더욱 악화되고 있다.

그럼에도 불구하고 벤치마크는 여전히 모델 개발에서 중심적인 역할을 하고 있다. 물론 벤치마크 결과를 액면 그대로 받아들이는 전문가는 거의 없지만 말이다. 오픈AI의 안드레 카파시(Andrej Karpathy) 공동 설립자는 최근 이러한 상황을 가리켜 ‘평가의 위기’라고 표현했다. AI 업계에서 신뢰할 수 있는 평가 방법이 점점 줄어들고 있으며 더 좋은 방법을 찾아낼 뚜렷한 경로도 없다는 것이다.

스탠퍼드 대학교 산하 인간중심 AI 연구소(HAI)의 버네사 팔리(Vanessa Parli) 연구 책임자는 “과거에는 벤치마크가 AI 시스템을 평가하는 방식이었다”며 “앞으로도 벤치마크로 시스템을 평가해야 할까? 아니라면 대안은 무엇일까?”라는 질문을 던졌다.

이 질문과 관련하여 거창한 목표를 버리고 사회과학 분야의 방식을 도입해 평가 범위를 축소하는 것이 답이라고 주장하는 AI 연구자들이 늘고 있다. 특히 이들은 테스트에서 ‘타당성(validity)’을 중시해야 한다고 생각한다. 정량적 사회과학에서 타당성이란, 어떤 질문지가 측정 대상을 실제로 얼마나 잘 측정하는지를 의미하며, 더 근본적으로는 측정 대상에 대한 일관적인 정의가 존재하는지를 말한다. ‘추론’이나 ‘과학적 지식’처럼 정의가 모호한 개념을 평가하는 벤치마크와 범용인공지능(AGI)이라는 거창한 목표를 추구하는 개발자들에게는 타당성에 집중하는 것이 문제가 될 수 있지만, 타당성을 기반으로 하는 벤치마크는 개별 모델의 가치를 증명하려는 AI 업계에 더 탄탄한 기반을 마련해줄 수 있을 것이다.

타당성 중심 접근 방식을 주장하는 핵심 인물 중 한 명인 애비게일 제이컵스(Abigail Jacobs) 미시간 대학교 교수는 “타당성을 진지하게 받아들인다는 것은 학계든 업계든 자신이 개발한 시스템이 자신이 말한 대로 작동한다는 것을 증명해야 한다는 의미”라면서 “검증 없이 주장만 하는 건 AI 업계의 약점을 드러내는 행위”라고 지적했다.

기존 테스트의 한계

AI 기업이 벤치마크의 실패 사례 증가에 신속히 대응하지 못하는 이유는 테스트를 통해 점수를 매기는 방식이 오랫동안 매우 효과적이었기 때문이다.

현대 AI의 초기 성공 사례 중 가장 대표적인 것은 오늘날 벤치마크의 전신과도 같은 이미지넷(ImageNet) 챌린지였다. 2010년 연구자들을 위한 공개 과제로 처음 등장한 이미지넷 데이터베이스에는 300만 개 이상의 이미지가 포함되어 있어 AI 시스템이 이를 1,000개의 범주로 분류할 수 있었다.

무엇보다도 이 테스트는 방식에 제한을 두지 않았기 때문에 성공적인 알고리즘이라면 작동 방식에 관계없이 빠르게 신뢰성을 확보할 수 있었다. 2012년 알렉스넷(AlexNet)이라는 알고리즘이 당시로서는 혁신적이었던 GPU 학습 방식으로 돌파구를 마련했고, 이는 현대 AI의 기반이 되는 대표적인 성과 중 하나가 됐다. 알렉스넷의 합성곱 신경망(convolutional neural network)이 이미지 인식 기술의 핵심이 될 것이라고 미리 짐작한 사람은 거의 없었지만, 알렉스넷이 좋은 점수를 받은 후에는 누구도 이를 의심하지 않았다. (참고로, 알렉스넷의 개발자 중 한 명인 일리야 수츠케버(Ilya Sutskever)는 나중에 오픈AI를 공동 설립하게 된다.)

이 챌린지가 효과적일 수 있었던 이유는 이미지넷의 객체 분류 과제와 컴퓨터에 이미지 인식을 요청하는 실제 과정 사이에 실질적인 차이가 거의 없었기 때문이다. 방식에 대한 논쟁은 있었지만, 이미지넷 챌린지에서 가장 높은 점수를 받은 모델이 실제 이미지 인식 시스템에 적용했을 때도 우위를 점할 것이라는 사실에는 아무도 이의를 제기하지 않았다.

그러나 그로부터 12년이 지난 지금, AI 연구자들은 이미지넷 챌린지처럼 방식에 제한을 두지 않는 접근법을 점차 일반화되고 있는 광범위한 작업에 적용하고 있다. 예를 들어 SWE-벤치는 전반적인 코딩 능력을 보여주는 평가 도구로 사용되고 있으며, 시험 방식을 채택한 다른 벤치마크들은 추론 능력을 측정하는 데 흔히 사용된다. 그러나 이렇게 평가 범위가 넓어질수록 특정 벤치마크가 실제로 무엇을 측정하는지 엄격하게 판단하기가 어려워지고, 결과적으로 그 결과를 책임감 있게 해석하여 사용하는 것도 힘들어질 수밖에 없다.

문제가 발생하는 지점

스탠퍼드 대학교에서 벤치마크 문제를 집중적으로 연구해 온 안카 루엘(Anka Reuel) 박사과정 학생은 범용적인 모델을 만들고자 하는 노력으로 인해 이러한 평가 문제가 발생한 것이라고 확신하게 됐다. 루엘은 “우리는 특정 작업에 특화된 모델을 벗어나 이제는 범용 모델 개발에 집중하고 있다”며 “이제 한 가지 작업이 아니라 여러 가지 작업을 평가해야 하기 때문에 평가가 더 어려워졌다”고 말했다.

미시간 대학교의 제이컵스 교수와 마찬가지로 루엘은 “벤치마크는 실제 구현보다 타당성, 즉 해당 테스트가 측정 대상을 정확히 측정하고 있는지가 더 중요한데, 바로 이 타당성과 관련하여 많은 문제가 발생한다”고 주장했다. 가령 코딩처럼 복잡한 작업의 경우 가능한 모든 시나리오를 문제 세트에 포함하기는 거의 불가능하다. 따라서 모델이 코딩에 더 능숙해서 높은 점수를 받은 것인지 아니면 해당 문제 세트를 더 효과적으로 처리해서 높은 점수를 받은 것인지 판단하기가 어렵다. 또한 개발자들은 기록적인 점수를 달성해야 한다는 강한 압박을 받기 때문에 지름길을 거부하기가 쉽지 않다.

개발자들은 여러 개의 특정 벤치마크에서 좋은 결과를 받으면 일반적으로 성능이 더 뛰어난 모델로 인정받을 것이라고 생각한다. 그러나 AI 에이전트 기술은 AI 시스템 하나가 다양한 모델을 아우를 수 있게 하는 것이므로 특정 작업에서 성능이 향상됐다고 해서 모든 작업에서 성능이 향상됐을 것이라고 평가하기는 어렵다. AI 업계의 부실한 관행에 대해 비판하고 있는 프린스턴 대학교의 사야시 카푸어(Sayash Kapoor) 컴퓨터과학 전공 연구원은 “테스트해야 할 부분이 너무 많아졌다”라며 “AI 에이전트에 대한 벤치마크의 모범사례는 거의 포기한 상태”라고 지적했다.

카푸어 연구원은 지난해 7월 발표한 논문에서 AI 모델이 웹아레나(WebArena) 벤치마크에 접근하는 방식에서 나타난 구체적인 문제들을 지적했다. 2024년 카네기멜런 대학교 연구진이 AI 에이전트의 웹 탐색 능력을 평가하기 위해 고안한 웹아레나 벤치마크는 레딧과 위키피디아 등을 모방한 여러 복제 웹사이트에서 수행해야 하는 800여 개의 과제로 구성되어 있다. 카푸어 연구원과 연구팀은 이 벤치마크에서 가장 높은 점수를 기록한 스텝(STeP)이라는 모델에서 일종의 편법을 발견했다. 이 모델에는 레딧이 URL을 구조화하는 방법에 대한 구체적인 지침이 포함되어 있었는데, 이를 통해 모델은 웹아레나 과제에서 요구할 때마다 특정 사용자의 프로필 페이지로 바로 이동할 수 있었다.

이는 명백한 부정행위는 아니었지만, 카푸어 연구원은 “해당 모델이 웹아레나 과제를 처음 접했다고 생각하면 동일한 성능을 보이지 않았을 것이므로 이는 모델의 실제 성능을 심각하게 왜곡하는 행위”라고 말했다. 그러나 이 방법이 성공적이었기 때문에 이후 오픈AI의 웹 에이전트인 오퍼레이터(Operator)도 유사한 전략을 채택했다. (오픈AI의 대변인은 이에 관한 논평 요청에 “웹사이트 구조 및 과제 수행 방식에 대한 지침이 주어졌을 때 에이전트가 과제를 얼마나 잘 수행할 수 있는지를 평가하도록 설계하는 게 우리의 전략”이라며 “이 방식은 다른 기업들이 웹아레나 벤치마크를 사용한 후 결과를 보고한 방식과 일치한다”고 설명했다. 스텝 모델 쪽에서는 논평 요청에 응하지 않았다.)

AI 벤치마크의 문제점이 더욱 부각된 것은 지난 4월 말 카푸어 연구원과 연구진이 크라우드소싱 방식의 인기 평가 시스템인 챗봇 아레나의 심각한 문제를 밝힌 논문을 발표한 이후였다. 해당 논문에 따르면 챗봇 아레나의 순위표는 조작되고 있었다. 순위표 상위에 위치한 파운데이션 모델의 상당수가 비공개 테스트를 진행한 뒤 일부 점수만 공개하고 있었기 때문이다.

오늘날 모든 벤치마크의 시초라고 할 수 있는 이미지넷 자체도 타당성 문제의 희생양이 되기 시작했다. 2023년 워싱턴 대학교와 구글리서치(Google Research) 연구진은 이미지넷에서 우수한 성적을 거든 알고리즘을 6개의 실세계 데이터 세트에 적용한 결과, 구조적 개선이 이루어진 모델이라고 해도 성능 향상이 거의 없다는 점을 발견했다. 이는 이미지넷 벤치마크의 외적 타당성(연구 결과가 실제 상황에 적용되는 정도)이 한계에 도달했음을 의미한다.

규모 축소

AI 평가의 문제가 ‘타당성’ 때문이라고 여기는 이들은 벤치마크를 특정 과제에 다시 연결하는 것이 가장 좋은 해결책이라고 생각한다. 스탠퍼드 대학교의 루엘 박사과정 학생은 “AI 개발자는 이제 최종 사용자에게는 거의 의미가 없는 높은 수준의 벤치마크에 의존할 수밖에 없다”며 “AI 모델이 최종적으로 수행하게 될 과제가 무엇이 될지 벤치마크 개발자들이 더는 미리 예측할 수 없기 때문”이라고 설명했다. 그렇다면 최종 사용자들이 이러한 간극을 파악할 수 있는 방법이 있다면 어떨까?

2024년 11월 루엘은 ‘베터벤치(BetterBench, 더 좋은 벤치마크)’라는 공개 순위 프로젝트를 개시했다. 이 프로젝트에서는 코드가 공개되어 있는지를 포함하여 수십 개의 기준에 따라 벤치마크를 평가한다. 그러나 이 프로젝트의 핵심 주제는 타당성이다. 따라서 여기에는 벤치마크 설계자에게 해당 벤치마크가 어떤 역량을 평가하기 위한 것인지, 그 역량이 벤치마크를 구성하는 과제와 어떤 관련이 있는지 명확히 설명하도록 요구하는 구체적인 기준들도 포함되어 있다.

루엘은 “평가하고자 하는 역량에 대한 구조적 분석이 필요하다”며 “실제로 중요하게 생각하는 기술은 무엇이며 이를 측정 가능한 형태로 어떻게 구체화할 수 있을지 고민해야 한다”고 설명했다.

프로젝트의 결과는 놀라웠다. 최상위권 점수를 기록한 벤치마크 중 하나는 가장 오래된 벤치마크이기도 한 ALE(Arcade Learning Environment)였다. ALE는 2013년에 모델이 아타리2600(Atari 2600) 게임을 플레이하는 방법을 학습하는 능력을 테스트하기 위해 고안된 벤치마크이다. 최하위권 점수를 기록한 벤치마크 중 하나는 일반적인 언어 능력을 테스트하는 데 널리 사용되는 MMLU(대규모 멀티태스크 언어 이해) 벤치마크이며, 베터벤치의 기준에 따르면 이 벤치마크는 질문과 측정하고자 하는 기술 간의 연관성이 지나치게 불분명했다.

베터벤치 프로젝트의 측정 결과는 특정 벤치마크의 평판에 큰 영향을 미치지 못했다. 적어도 아직까지는 그렇다. MMLU는 여전히 널리 사용되고 있으며, ALE는 여전히 비주류이다. 그러나 이 프로젝트는 AI 벤치마크를 개선하기 위한 논의에서 ‘타당성’을 중요한 주제로 끌어내는 데에는 성공했다. 지난 4월 루엘은 허깅페이스(Hugging Face), 에든버러 대학교, 얼루서AI(EleutherAI)가 주도하는 새로운 연구 그룹에 조용히 합류했다. 여기서 루엘은 AI 분야의 다른 연구자들과 함께 타당성 및 AI 모델 평가에 대한 개념을 발전시킬 예정이다. (공식 발표는 5월 말에 예정되어 있다.)

허깅페이스의 아이린 솔레이먼(Irene Solaiman) 글로벌 정책 책임자는 해당 연구 그룹이 단순한 역량 측정을 넘어 타당성 있는 벤치마크를 구축하는 데 주력할 것이라고 밝혔다. 그는 “제대로 작동하는 벤치마크에 대한 갈망이 매우 크다”며 “지금 이용할 수 있는 평가들은 대체로 지나치게 많은 것들을 측정하려고 한다”고 설명했다.

점점 더 많은 업계 관계자들이 이러한 의견에 동의하는 것으로 보인다. 3월에 발표된 논문에서는 구글, 마이크로소프트, 앤트로픽 등 여러 기업의 연구원들이 AI 평가 방식을 개선하기 위한 새로운 프레임워크를 제시했으며, 그 첫 단계가 타당성 개선이었다.

해당 연구자들은 “AI 평가는 범용지능과 같은 모호한 주장에서 벗어나 더 구체적이고 실세계에서 진전을 이루는 데 도움을 주는 유의미한 기준을 목표로 나아가야 한다”고 주장했다.

‘모호함’ 측정

이러한 변화를 위해 일부 연구자들은 사회과학 분야의 도구를 참고하고 있다. 지난 2월 발표된 논문의 저자들은 “생성형 AI 시스템을 평가하는 것은 사회과학 분야에서 복잡하고 모호한 주제를 측정하려고 시도하는 것과 유사하다”고 주장하며, 사회과학에서 사용하는 타당성 검증 방식을 AI 벤치마킹에 적용할 수 있는 방법을 제시했다.

마이크로소프트의 연구 부문 소속 연구자들과 스탠퍼드 대학교 및 미시간 대학교의 몇몇 학자로 이루어진 이 저자들은 “사회과학자들이 이념, 민주주의, 매체 편향처럼 논쟁의 여지가 있는 개념을 측정하는 데 사용하는 기준을 AI 시스템을 평가할 때 참고할 수 있다”고 주장했다. 그러한 기준을 AI 벤치마크에 적용하면 모호한 일반화에 빠지지 않고 ‘추론’이나 ‘수학 능력’ 같은 개념을 평가할 방법을 제공할 수 있다는 것이다.

사회과학 연구에서는 우선 테스트를 통해 측정하려는 개념을 명확하게 정의한 후에 측정 지표를 설정해야 한다. 가령 어떤 사회가 얼마나 민주적인지 측정하는 테스트라면, 먼저 ‘민주적인 사회’가 무엇인지에 대한 정의를 확립한 후에 해당 정의와 관련된 질문을 구성해야 한다.

이러한 방식을 SWE-벤치와 같은 벤치마크에 적용하려면 깃허브에서 프로그래밍 문제를 수집하여 정답 여부를 판단하는 기존의 머신러닝 접근 방식에서 벗어나야 한다. 그 대신에 먼저 해당 벤치마크가 측정하고자 하는 목표가 무엇인지(예: 소프트웨어에서 제기된 문제 해결 능력)를 정의하고, 이를 하위 기술(예: AI 모델이 성공적으로 처리할 수 있는 다양한 문제 유형 또는 프로그램 유형)로 세분화한 다음, 각 하위 기술을 제대로 반영하는 질문들을 설정해야 한다.

이는 AI 연구자들이 벤치마킹에 접근하는 일반적인 방식과는 근본적으로 다르지만, 2월에 발표된 논문의 공동 저자이기도 한 미시간 대학교의 제이컵스 교수와 같은 연구자들은 “그 점이 바로 핵심”이라고 생각한다. 제이컵스 교수는 “기술 업계에서 일어나고 있는 일과 이러한 사회과학 도구 사이에는 괴리가 있지만, 우리는 수십 년 동안 인간에 대한 모호한 개념들을 어떻게 측정할 것인지에 대해 고민해 왔다”고 설명했다.

이러한 생각은 연구계에서 실제로 영향력을 발휘하고 있다. 그러나 AI 기업들이 벤치마크를 사용하는 방식에는 아직 큰 변화를 주지 못하고 있다.

지난 두 달간 오픈AI, 앤트로픽, 구글, 메타가 새 모델을 발표했는데, 이들은 여전히 MMLU와 같은 객관식 지식 벤치마크에 크게 의존하고 있다. MMLU는 타당성을 중시하는 연구자들이 탈피하고자 하는 바로 그 평가 방식이다. 그러나 모델 발표는 여전히 범용지능의 향상을 보여주는 데 초점이 맞춰져 있기 때문에 성능 개선을 뒷받침하기 위해 이러한 광범위한 벤치마크들이 사용되고 있다.

일부 관찰자들은 현재의 벤치마크 수준이면 충분하다고 생각한다. 와튼 스쿨의 에단 몰릭(Ethan Mollick) 교수는 벤치마크에 대해 “형편없기는 해도 우리가 가진 유일한 평가 수단”이라면서 “모델들의 성능이 점점 더 향상되면서 빠른 발전 속도 덕분에 평가 방식의 문제들도 일단은 용인되고 있다”고 덧붙였다.

현재로서는 AI 업계가 범용인공지능이라는 목표에 오랫동안 집중하다 보니 타당성 기반의 집중적인 평가 방식을 도입하는 일이 우선순위에서 밀리고 있는 것으로 보인다. AI 모델이 범용지능 측면에서 계속 발전할 수 있다면, 해당 모델이 어떤 구체적인 응용 분야에서 활용될 수 있는지는 그다지 매력적으로 보이지 않을 것이며 그 과정에서 실무자들은 신뢰도가 떨어진 벤치마크에 의존하게 될 것이다.

허깅페이스의 솔레이먼 책임자는 “이 부분에서 우리가 줄타기를 하고 있다”며 “평가 시스템을 버리기는 너무 쉽지만, 이러한 시스템이 가진 한계에도 불구하고 평가는 모델을 이해하는 데 큰 도움을 준다”고 강조했다.

이 글을 쓴 러셀 브랜덤(Russell Brandom)은 AI를 다루는 프리랜서 작가이며, 브루클린에서 아내와 고양이 두 마리와 함께 살고 있다.

The post 더 나은 AI 벤치마크를 구축하는 방법 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.