AI 간 가격 협상에서 발생하는 디지털 격차

AI끼리 가격을 정할 때 성능이 좋은 AI가 더 유리한 결과를 이끌어내는 것으로 나타났다. 이에 따라 저사양 AI를 사용하는 소비자가 고성능·고가의 모델을 사용하는 소비자보다 더 큰 비용을 부담하게 되어, 결과적으로 디지털 불평등이 심화될 수 있다는 우려가 제기된다.

더 크고 강력한 AI 모델을 향한 경쟁은 서서히 식고 있다. 이제 AI 업계의 관심은 ‘덩치 큰 AI’에서 ‘작고 똑똑한 AI 에이전트’ 개발로 옮겨가고 있다. AI ‘에이전트’란 사용자를 대신해 자율적으로 행동하고, 스스로 판단하며, 심지어 가격 협상까지 할 수 있는 기능을 말한다.

그럼 만약 판매자와 구매자 양측이 AI 에이전트를 사용하면 어떠한 일이 벌어질까? 최근 진행된 한 연구에서는 바로 이러한 상황을 테스트해 보았다. AI끼리 가격 협상을 진행하게 한 것이다. 그 결과, 더 크고 강력한 AI 에이전트가 상대적으로 약한 AI에 대해 협상에서 우위를 점하고 더 좋은 거래를 끌어내는 것으로 나타났다. 이는 마치 법정에서 노련하고 경험이 많은 변호사와 신입 변호사가 맞붙는 것과 같다. 규칙은 공정하지만, 실제로는 협상이 시작되기 전부터 한쪽이 우위를 점하고 있는 것이다.

이번 연구는 정식 출간 전 논문을 공개되는 플랫폼인 아카이브(arXiv)에 게시되었다. 더 뛰어난 추론 능력, 더 방대한 훈련 데이터, 더 많은 매개변수를 가진 고성능 AI 모델을 탑재한 거래인은, 성능이 낮은 AI와 거래할 때 일관되게 더 유리한 결과를 얻었다. 이는 이미 더 많은 자원과 AI 접근성을 확보한 사람과 그렇지 못한 사람 사이의 격차가 점점 더 벌어지고 있음을 보여준다. 앞으로 이러한 AI 에이전트 간의 거래가 일상화된다면, AI 접근성의 차이로 인해 불평등이 심화되고, 기존의 빈부 격차가 더욱 커질 가능성도 충분히 존재한다.

스탠퍼드 대학 박사 후 연구원이며 논문 공동 저자인 지아신 페이(Jiaxin Pei)는 “앞으로는 누군가의 협상 실력보다 그가 사용할 수 있는 AI 에이전트의 연산 능력이 투자나 사업의 수익률을 좌지우지하게 될 수 있다”고 말했다.

이번 실험에서 연구진은 AI 모델들에게 전자제품, 차량, 부동산 등 세 가지 상황을 제시하고, 각각 구매자와 판매자의 역할을 맡겨 협상을 진행하게 했다. 판매자 에이전트는 제품 사양, 도매가 및 권장 소비자 가격 등의 정보를 받았고, 구매자 에이전트는 가용 예산, 시중 가격, 요구 사양 등의 정보를 제공받았다. 또한 판매자 에이전트는 수익을 최대화하라는 지시가, 구매자에게는 가격을 최대한 낮추라는 지시가 주어졌다.

현실의 거래 상황을 반영하기 위해, 연구진은 구매자와 판매자 에이전트에게 일부 정보만을 제공했다. 특히 상대방의 예산, 목표 가격, 제한 조건 등은 공유되지 않았으며, 각 에이전트는 제한된 정보만을 바탕으로 협상을 진행했다.

실험 결과, AI 에이전트 간의 협상 실력에는 뚜렷한 차이가 있었다. 가장 뛰어난 성능을 보인 모델은 ChatGPT-o3였으며, 그 뒤를 같은 회사의 GPT-4.1, o4-mini가 이었다. 이미 출시된 지 2년이 지나 연구에 포함된 모델 중 가장 오래된 GPT-3.5는 제품을 싸게 팔고 비싸게 사는 등 가장 낮은 성능을 기록했다. 딥시크(DeepSeek) R1과 V3는 전체적으로 준수한 성능을 보였으며, 특히 판매자 역할에서 강점을 드러냈다. 퀀2.5(Qwen2.5)는 전반적으로 좋은 성적은 아니었지만, 구매자 역할에서는 비교적 선방했다.

한 가지 특이한 것은, 일부 AI의 경우 거래 성사율은 낮지만 성공한 거래에서는 높은 수익을 남긴 반면, 낮은 수익의 거래를 자주 성사시키는 AI도 있었다는 점이다. GPT-4.1과 딥시크 R1은 이 둘 사이의 균형을 잘 맞추면서 높은 거래 성사율과 준수한 수익을 달성하는 결과를 보였다.

금전적인 손해를 제외하고도, AI는 거래를 성사하지 못하고 협상을 끝없이 반복하거나, 혹은 충분히 협상을 진행하지 않은 채 거래를 조기에 끝내는 모습을 보이기도 했다. 가장 성능이 좋은 모델조차 가끔은 이런 모습을 보였다.

페이 연구원은 이번 연구에 대해 “이 결과는 의외였다. 우리는 이제 대형 언어 모델(LLM)이 꽤 똑똑하고 믿을 만한 수준까지 올라왔다고 생각했지만, 이번 연구는 약간 다른 결과를 보여줬다. 많은 것이 걸려있는 중요한 협상을 할 때 AI를 활용하는 것에 대해서는 다시 생각해 봐야 할 것”이라고 논평했다.

페이 연구원에 따르면 이러한 성능 차이는 여러 이유로 발생할 수 있다. 훈련 데이터, 추론 능력 및 공개되지 않은 정보를 유추하는 능력 등이 여기에 포함된다. 그러나 이러한 차이를 나타내는 이유 중 가장 중요한 요소는 분명한데, 이는 바로 AI 모델의 크기다. 대형 언어 모델의 크기-성능 법칙에 따르면, 매개변수의 숫자가 증가함에 따라 AI 모델의 성능도 뚜렷하게 향상된다. 이번 실험도 이 규칙에 합당한 결과를 보였다. 같은 계통의 모델 중에서도 더 많은 매개변수를 가진 모델이 일관되게 더 우수한 협상 능력을 보인 것이다.

이번 연구 결과는 AI 기술을 금융이나 투자 같은 현실 세계의 의사 결정에 적용하기에는 시기상조임을 보여준다. 이와 비슷한 결론을 내린 연구들도 최근 꾸준히 발표되는 추세다. 이러한 연구들을 바탕으로 일부 연구진은 LLM 평가 기준의 전환을 제안했다. 기존의 AI 평가는 최고 성능이나 정확도에 집중해 왔지만, 이제는 AI의 안전성, 즉 실수를 얼마나 줄이고, 실수했을 때 피해를 얼마나 최소화하는지를 기준으로 삼아야 한다는 주장이다. 이들은 또한, 현존하는 최고 수준의 AI조차 경쟁이 치열한 상황에서는 실수를 피하지 못한다고 지적했다.

실제 금융 환경에서는 단 1%라도 치명적인 실수가 발생할 위험이 있다면 전체 시스템을 위험에 빠트리게 된다. 따라서 이들 연구진은 AI 에이전트를 금융 거래에 도입하기 전에 일종의 ‘스트레스 테스트’, 즉 극한 환경에서도 AI가 계획했던 대로 작동하며 중대한 오류를 범하지는 않는지 검사해야 한다고 권고했다.

에모리 대학의 한청 차오(Hancheng Cao) 신임 조교수는 “이번 연구는 모의 거래 상황에서 진행되었기 때문에 현실 거래에서 발생하는 복잡한 상황과 거래 당사자 간의 행동을 모두 반영하지는 못할 수 있다”며 한계를 지적했다.

페이 연구원에 따르면, AI가 치명적인 실수를 저지를 가능성을 줄이기 위해 연구자들과 AI 업계 개발자들이 다양한 접근을 시도하고 있다고 전했다. 그 예로 AI에 주어지는 지시문을 더 명확히 다듬는 것, 외부 도구를 통해 판단을 보조하는 것, 여러 모델을 동시에 작동시켜 비교하는 것, 그리고 AI가 금융 자료에 특화되도록 훈련하는 방법 등이 있다. 이러한 전략들은 실제로 AI의 판단력을 높이고, 실수를 줄이는 데 효과를 보이고 있다.

현재까지 온라인 상거래 업계에 있어서 AI 에이전트의 역할은 구매할 제품을 추천해 주는 수준에 그치고 있다. 예를 들어 아마존은 지난 4월 ‘바이포미(Buy for Me)’라는 AI 에이전트를 출시했는데, 이 에이전트는 만약 소비자가 원하는 상품이 아마존 사이트에 없을 때 이를 다른 사이트에서 구매할 수 있도록 돕는다.

가격 협상은 소비자가 물건을 구매하는 과정에서는 드물지만, 기업 간 거래에 있어서는 보다 흔하게 일어난다. 알리바바닷컴은 자사의 공개 AI 모델인 퀀을 기반으로 ‘아씨오(Accio)’라는 제품 조달 보조 AI를 개발하여 공급 업체 탐색과 제품 조사에 활용하고 있지만, 아직 가격 협상에 AI를 도입할 계획은 없다고 밝혔다. AI가 거래를 주도할 경우 위험성이 너무 크다는 이유에서다.

이는 적어도 아직까지는 나쁜 생각이 아닐 듯하다. 페이 연구원 역시 AI를 의사 결정 단계에 활용하기보다는 정보 수집용 도구로만 사용하는 것이 낫다고 이야기한다. 그는 “아직 AI 에이전트는 정확한 의사 결정을 내릴 능력이 부족하다. 최종 결정은 아직 사람의 몫으로 남겨둬야 한다”고 말했다.

The post AI 간 가격 협상에서 발생하는 디지털 격차 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.