신뢰 잃어가는 AI 평가, 지금 이대로 괜찮을까

AI 성능을 평가하는 기존 벤치마크가 한계에 봉착했다. 이를 극복하기 위한 새로운 실험과 논의가 이어지고 있다.

기술 전문 기자로 일하다 보면 “딥시크가 정말 챗GPT보다 좋은가요?”라든지 “앤트로픽 모델도 쓸만해요?” 같은 질문을 자주 받는다. 하지만 이런 질문에 제대로 답하려면 1시간짜리 강연으로도 모자랄 정도라, 보통은 “각자 장점이 있다”는 식으로 에둘러 답하곤 한다.

문제는 ‘좋다’는 기준 자체가 주관적이라는 데 있다. 누군가는 정확도를, 또 누군가는 대화의 자연스러움이나 창의성을 ‘좋다’는 데 대한 기준으로 삼는다. 이렇게 기준이 제각각이다 보니 어떤 모델이 더 좋다고 단정하기는 어렵다. 결국 “이 모델이 좋은가요?”라는 질문은 매우 복잡하고 기술적인 의미가 담긴 질문이나 다름이 없다.

지금까지 우리는 주로 ‘벤치마크 테스트’에 의존해 이 질문에 대답해왔다. 정해진 문제를 제시하고, AI가 얼마나 정확하게 답을 밎히는지를 수치로 평가하는 방식이다. 하지만 미국 대학 입시에 활용되는 SAT 시험처럼 이런 방식은 모델의 진짜 실력을 제대로 보여주지 못하는 경우도 많다.

최근 들어 새로운 AI 모델이 거의 매주 출시되고 있다. 기업들은 매번 이전보다 높은 벤치마크 점수를 앞세워 최신 모델의 개선된 성능을 강조한다. 점수만 봐서는 기술이 꾸준히 진화하는 것 같지만, 실상은 그리 단순하지 않다.

MIT 테크놀로지 리뷰의 러셀 브랜덤(Russell Brandom) 기자는 최근 기사를 통해 “SAT 시험을 대비한 기출문제 풀이가 점수를 올리는 데 도움이 될 수 있어도 사고력 자체를 키워주지는 않는다”며 “AI 모델 역시 벤치마크 점수를 올리기 위한 맞춤형 훈련을 받을 수는 있지만, 그렇다고 해서 실제로 더 ‘똑똑해졌다’고 보기는 어렵다”고 설명했다.

오픈AI와 테슬라에서 AI 전문가로 활동해 온 안드레아 카르파티(Andrej Karpathy) 역시 이 문제를 짚었다. 그는 “우리는 지금 AI 평가 위기를 겪고 있다”며 “AI 성능을 판단하는 현재의 ‘점수판’은 우리가 정말 알고 싶은 것을 더 이상 측정하지 못하고 있다”고 경고했다.

벤치마크가 신뢰를 잃어가는 데는 몇 가지 그럴 만한 이유가 있다. 첫째, 업계는 이제 ‘시험에 맞춘 학습’에 능숙해졌다. AI 모델의 실제 지능을 높이기보다는 벤치마크 점수를 끌어올리는 데 집중하는 방식이다. 둘째는 데이터 오염 문제다. 모델이 벤치마크 질문이나 정답을 이미 학습 데이터에서 접했을 가능성이 크기 때문이다.

마지막 이유는 벤치마크 자체가 그야말로 ‘한계치’에 도달했기 때문이다. 대표적인 언어능력 테스트 ‘슈퍼글루(SuperGLUE)’에서 AI 모델들은 이미 90% 이상의 정확도를 기록했다. 이런 상황에서 추가적인 점수 상승은 실제 발전이라기보다 단순한 통계적 오차에 가깝다. 이쯤 되면 점수는 더 이상 유의미한 정보를 주지 못한다. 결국 코딩, 추론, 복잡한 과학·공학 문제처럼 높은 수준의 사고력을 요구하는 분야에서는 이러한 한계가 더욱 뚜렷하게 드러난다.

그러나 전 세계적으로 AI 평가의 한계를 극복하려는 움직임도 점차 확산되고 있다. 그중 하나가 ‘라이브코드벤치 프로(LiveCodeBench Pro)’라는 새로운 벤치마크다. 이 테스트는 국제 알고리즘 올림피아드 같은 대회에서 실제로 출제된 문제를 기반으로 한다. 해당 대회는 세계 각국의 우수한 고등학생과 대학생들이 외부 도구 없이 고난도의 문제를 해결하는 방식으로 치러진다.

이 테스트에서 중간 난이도 문제의 경우 현재 최상위 AI 모델조차 첫 시도 정답률이 평균 53%에 불과하며, 가장 어려운 문제의 정답률은 0%에 머물고 있다. 반면 인간 전문가들은 이보다 훨씬 높은 성과를 꾸준히 내고 있다.

이 프로젝트는 뉴욕대학교(NYU) 3학년이자 북미 지역 알고리즘 대회 결승 진출자인 지한 정(Zihan Zheng)이 주도했으며, 올림피아드 메달리스트들로 구성된 팀이 함께 개발에 참여했다. 이들은 라이브코드벤치 프로와 함께 오픈AI의 GPT-4-미니-하이(GPT-4-mini-high), 구글의 제미나이 2.5(Gemini 2.5) 등 최상위 모델의 성능을 상세히 분석한 연구 결과도 함께 공개했다. 분석에 따르면 이들 모델은 상위 10%의 인간 참가자와 비슷한 수준의 성과를 보였다.

정은 AI의 성능에서 일정한 패턴을 발견했다. 그는 “AI는 계획을 세우고 이를 실행하는 데는 강점을 보이지만, 미묘한 알고리즘 기반 추론에서는 여전히 약하다”며 “최고 수준의 인간 프로그래머와 비교하기에는 아직 갈 길이 멀다”고 설명했다.

라이브코드벤치 프로가 AI 모델 성능의 상위 기준선을 새롭게 제시할 수 있다면 하한선은 어디에 있을까. 지난 6월 초 여러 대학 소속 연구자들은 논문을 통해 “대형언어모델(LLM)을 평가할 때 단순한 성능 수치보다 ‘위험성’을 중심에 둬야 한다”고 주장했다. 특히 AI 에이전트를 활용하는 상황에서는 신뢰성 부족이나 환각(hallucination), 불안정성 같은 문제가 치명적인 결과를 초래할 수 있기 때문이다. 돈이나 안전이 걸린 상황에서는 단 한 번의 오류도 돌이킬 수 없는 피해로 이어질 수 있다.

이처럼 기존 벤치마크의 한계를 보완하려는 시도는 계속되고 있다. ‘ARC-AGI’ 같은 일부 벤치마크는 AI 모델이 테스트에 과도하게 최적화되는 이른바 ‘오버피팅(overfitting)’ 현상을 막기 위해 데이터 일부를 비공개로 유지하고 있다. 메타의 얀 르쿤(Yann LeCun)은 문제가 6개월마다 바꾸는 동적 벤치마크 ‘라이브벤치(LiveBench)’를 제안하기도 했다. 단순한 지식 축적 능력만이 아니라 새로운 문제에 대한 적응력까지 평가하겠다는 취지다.

홍산캐피털그룹(HongShan Capital Group·구 세쿼이어 차이나)이 개발한 중국의 벤치마크 프로젝트 ‘엑스벤치(Xbench)’도 이러한 흐름 속에서 주목할 만한 새로운 시도 가운데 하나다. 필자 역시 최근 이 프로젝트를 다룬 기사를 쓴 바 있다. 엑스벤치는 챗GPT가 처음 공개된 직후인 2022년, 내부 투자 리서치를 위한 평가 도구로 처음 개발됐다. 이후 개발팀은 시스템을 점차 확장했고 외부 협력자들과의 공동 작업도 이어갔다. 지난주에는 질문 일부를 처음으로 외부에 공개하기도 했다.

엑스벤치의 가장 큰 특징은 이원화(dual track)된 평가 구조다. 연구실 중심의 테스트와 실제 환경에서의 실용성 간 간극을 줄이기 위한 설계다. 첫 번째 트랙에서는 STEM 분야 지식과 중국어 리서치 수행 능력을 바탕으로 기술적 추론 역량을 평가하고, 두 번째 트랙에서는 실무 중심의 과제를 통해 모델의 실용성을 측정한다. 예를 들어 유망한 배터리 엔지니어 후보 5명을 선별하거나, 800명 이상의 크리에이터 목록에서 특정 브랜드 이미지에 적합한 인플루언서를 찾아내는 식이다. 엑스벤치 개발팀은 여기에 그치지 않고, 향후 금융, 법률, 디자인 등 다양한 산업군으로 테스트 범위를 넓히고, 평가 항목 역시 분기마다 꾸준히 업데이트해 벤치마크가 정체되지 않도록 하겠다는 계획이다.

이는 필자 역시 자주 고민해 온 부분이기도 하다. 추론 능력이 뛰어난 모델이라고 해서 반드시 유익하고, 흥미로우며, 창의적인 사용자 경험으로 이어지는 것은 아니기 때문이다. 또 대부분의 일반 사용자는 로켓 공학처럼 어려운 질문을 던지기보다는 일상적인 용도로 AI를 활용한다.

아직 ‘창의성’을 효과적으로 평가하는 방법에 관한 연구는 많지 않다. 하지만 어떤 모델이 창작 글쓰기나 예술 프로젝트에 가장 잘 어울릴지에 대한 관심은 계속 커지고 있다.

최근에는 벤치마크의 대안으로 ‘사용자 선호 테스트(Human preference testing)’도 주목받고 있다. 특히 ‘엘마레나(LMarena)’라는 플랫폼이 점점 더 많은 인기를 끌고 있다. 이 플랫폼에서는 사용자가 직접 질문을 제출하고, 여러 모델의 답변을 나란히 비교한 뒤 가장 마음에 드는 응답을 선택하는 방식으로 선호도를 평가한다.

다만 이 방식에도 한계는 존재한다. 사용자들은 정답 여부보다 말투가 더 친절하거나 자신의 의견에 더 부합하는 답변을 고르는 경향이 있기 때문이다. 이로 인해 아첨에 능한 모델이 더 높은 평가를 받게 되고, 결과가 왜곡될 가능성도 배제할 수 없다.

AI 연구자들 사이에서는 기존 평가 방식으로는 더 이상 버틸 수 없다는 인식이 점차 확산되고 있으며, 이를 공개적으로 인정하는 분위기도 생겨나고 있다. 최근 열린 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에서 뉴욕대학교의 셰이닝 셰(Saining Xie) 교수는 역사학자 제임스 카스(James Carse)의 저서 <유한 게임과 무한 게임(Finite and Infinite Games)>을 인용하며, AI 연구계에 만연한 과도한 경쟁 문화를 비판했다. 그는 “무한 게임은 끝이 정해지지 않은 게임으로, 목표는 그저 게임을 계속 이어가는 데 있다”고 설명했다.

반면 AI 연구에서는 한 기업이나 연구팀이 주목할 만한 성과를 내면, 그 주제를 따라 수많은 후속 논문이 쏟아지는 일이 반복된다. 이른바 ‘출간 경쟁’은 연구자들에게 과도한 압박을 가하고, 깊이 있고 장기적인 탐구보다는 빠르고 단기적인 성과를 우선시하는 문화를 조장한다. 셰 교수는 “학계가 유한 게임을 선택한다면, 결국 모든 것을 잃게 될 것”이라고 경고했다. 이 비유는 필자에게도 강한 인상을 남겼고, 어쩌면 벤치마크 문제에도 그대로 적용할 수 있겠다는 생각이 들었다.

그렇다면 우리는 과연 AI 모델의 우수성을 다면적으로 평가할 수 있는 점수판을 갖고 있는가? 실상은 그렇지 않다. 사회적 지능, 감정 인식, 융합적 사고력 등 여전히 수치화하기 어려운 능력들은 평가 체계의 사각지대에 놓여 있기 때문이다. 그럼에도 최근 속속 등장하고 있는 다양한 벤치마크 실험들은 변화의 조짐을 보여준다. 기술이 진화하는 과도기에는 어느 정도의 회의적인 시각이 오히려 도움이 될 수 있다.

The post 신뢰 잃어가는 AI 평가, 지금 이대로 괜찮을까 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.