中 벤처캐피털 홍산, AI 평가용 벤치마크 ‘엑스벤치’ 공개

중국계 벤처캐피털 홍산캐피탈그룹이 자사의 투자 대상 모델을 평가하기 위해 개발했던 벤치마크를 누구나 사용할 수 있도록 공개했다.

인공지능(AI) 모델이 복잡한 질문에 답할 때 그것이 실제로 추론을 한 것인지, 아니면 단순히 학습 데이터에서 외운 답을 되풀이한 것인지 구분하기란 쉽지 않다. 이 문제를 해결하기 위해 중국의 벤처캐피털 홍산(HongShan)은 새로운 벤치마크 ‘엑스벤치(Xbench)’를 개발했다.

엑스벤치는 대부분의 기존 벤치마크처럼 임의의 시험을 통과하는 능력만 평가하는 데 그치지 않고, 현실 세계의 과제를 수행하는 능력까지 평가한다. 홍산 측은 이 테스트를 정기적으로 점검하고 개선해 항상 최신 상태를 유지할 계획이라고 밝혔다.

최근 홍산은 벤치마크의 일부 문제 세트를 공개해 누구나 이를 무료로 사용할 수 있게 했다. 또 주요 AI 모델들을 엑스벤치로 테스트하여 이들의 순위를 비교한 리더보드도 공개했다. 그 결과 모든 분야에서 챗GPT o3가 1위를 차지했지만, 바이트댄스(ByteDance)의 더우바오(Doubao), 제미나이 2.5 프로(Gemini 2.5 Pro), 그록(Grok), 클로드 소네트 역시 여전히 좋은 성적을 보였다.

홍산이 벤치마크 개발에 착수한 것은 2022년 챗GPT가 획기적인 성공을 거둔 직후였다. 처음 목적은 투자 가치가 있는 모델을 내부적으로 평가하는 것이었다. 이후 파트너인 공 위안(Gong Yuan)이 이끄는 팀이 외부 연구원과 전문가를 영입해 시스템을 꾸준히 확장·개선해 나갔고, 프로젝트가 점차 정교해짐에 따라 이들은 이를 대중에 공개하기로 했다.

엑스벤치는 이 문제에 대해 두 가지 상이한 방식으로 접근했다. 하나는 전통적인 벤치마크처럼 다양한 주제에 대한 모델의 학업적 역량을 평가하는 시험이다. 다른 하나는 모델이 실제 경제적 가치를 얼마나 창출할 수 있는지를 평가하는 기술 면접에 가까운 방식이다.

현재 엑스벤치는 AI의 기초 지능을 평가하기 위해 두 가지 구성 요소를 운용하고 있다. 바로 ‘엑스벤치-사이언스QA(Xbench-ScienceQA)’와 ‘엑스벤치-딥리서치(Xbench-DeepResearch)’다. 사이언스QA는 기존의 대학원 수준 STEM 벤치마크인 GPQA나 수퍼GPQA(SuperGPQA)와 크게 다르지 않다. 생화학부터 궤도 역학까지 다양한 분야를 아우르는 문제들이 포함되어 있으며, 대학원생이 초안을 작성하고 교수가 이를 이중 검토하는 방식으로 제작됐다. 이 벤치마크에서는 정답뿐 아니라 정답에 이르는 추론 과정 역시 평가 대상이 되어 점수가 부여된다.

이와 대조적으로 딥리서치는 중국어 웹을 탐색하는 모델의 능력에 초점을 맞추었다. 연구진은 음악, 역사, 금융, 문학 등 다양한 분야에서, 단순히 구글 검색으로 답할 수 없고 상당한 조사와 추론이 필요한 100개의 질문을 만들었다. 평가 기준은 출처의 다양성, 사실의 일관성, 데이터가 부족할 때 이를 솔직하게 인정하는 태도 등에 가중치를 두었다. 공개된 문항 하나는 다음과 같다. ‘중국의 북서부 3개 성에서 외국과 국경을 접하고 있는 중국 도시는 몇 개일까?’ 참고로 이 문제의 정답은 12개이며, 테스트에 참여한 모델 중 이 질문에 정답을 맞힌 비율은 33%에 불과했다.

딥리서치 개발 연구진은 홍산 웹사이트를 통해 “앞으로 테스트에 더 다양한 평가 요소를 추가하고 싶다”고 밝혔다. 모델이 얼마나 창의적으로 문제를 해결하는지, 다른 모델과 협력할 때 얼마나 협조적인지, 또 얼마나 신뢰할 수 있는지 등이 그 예로 제시되었다.

연구진은 분기마다 테스트 문항을 업데이트하고, 데이터세트의 절반은 공개, 절반은 비공개로 유지하겠다고 밝혔다.

연구진은 모델이 실제 환경에 얼마나 잘 대비되어 있는지를 평가하기 위해 전문가들과 협력해 채용 및 마케팅 분야의 실제 업무 흐름을 본뜬 과제를 개발했다. 예를 들어, 한 과제는 모델에게 자격을 갖춘 배터리 엔지니어 후보자 5명을 추천하고, 각 후보의 선정 이유를 설명하도록 요구했다. 또 다른 과제는 800명이 넘는 인플루언서 풀에서 광고주에 적합한 숏폼 영상 크리에이터를 매칭하도록 했다.

홍산 웹사이트에서는 재무, 법률, 회계, 디자인 등 향후 추가될 평가 분야도 예고하고 있다. 이들 분야의 문제 세트는 아직 공개되지 않았다.

챗GPT o3는 현재 두 가지 전문 분야 모두에서 다시 한번 1위를 차지했다. 채용 부문에서는 퍼플렉시티 서치(Perplexity Search)와 클로드 3.5 소네트(Claude 3.5 Sonnet)가 각각 2위와 3위에 올랐다. 마케팅 분야에서는 클로드, 그록, 제미나이가 모두 좋은 성과를 거두었다.

라이브코드벤치 프로(LiveCodeBench Pro)라는 새로운 벤치마크의 수석 연구원이자 뉴욕대학교 재학생인 지한 젱(Zihan Zheng)은 “벤치마크에 정량화하기 어려운 요소를 포함시키는 일은 정말 어렵다”면서도 “엑스벤치는 유망한 출발점을 보여주고 있다”고 평가했다.

The post 中 벤처캐피털 홍산, AI 평가용 벤치마크 ‘엑스벤치’ 공개 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.