[OPINION] 기대 앞선 AI 에이전트, 현실 점검이 먼저다

AI 에이전트는 디지털 환경을 근본적으로 바꿔놓을 만한 잠재력을 지녔다. 하지만 신뢰성과 명확한 정의 없이 확산될 경우 오히려 혼란을 초래할 수 있다.

구글이 최근 공개한 이른바 ‘새로운 차원의 에이전트 경험’은 기술적 진화의 분기점으로 주목받고 있다. 지난 5월 개최된 ‘구글 I/O 2025’ 행사에서 구글은 단순히 질문에 답하는 수준을 넘어 실제 자전거 수리 과정을 돕는 디지털 어시스턴트를 선보였다. 이 어시스턴트는 관련 사용 설명서를 찾아주고, 유튜브 튜토리얼을 검색하며, 인근 상점에 직접 전화를 걸어 필요한 부품의 재고 여부까지 확인하는 등 최소한의 사용자 개입만으로 여러 작업들을 스스로 처리해 냈다.

이러한 기능은 구글 생태계를 넘어 더 넓은 영역으로 확장될 가능성이 크다. 구글은 최근 서로 다른 기업의 에이전트들이 자유롭게 소통하고 협업할 수 있도록 지원하는 개방형 표준 ‘에이전트 투 에이전트(Agent-to-Agent, A2A)’를 발표했다.

분명 매력적인 구상이다. 지능형 소프트웨어 에이전트들이 항공편을 예약하고, 회의 일정을 조율하며, 비용을 정산하는 등 다양한 업무를 눈에 띄지 않는 곳에서 서로 협력해 처리하는 방식이다. 하지만 제대로 주의를 기울이지 않는다면 이 아이디어는 현실적인 성과를 내기도 전에 좌초될 수 있다. 많은 기술 트렌드가 그렇듯, 기대가 현실보다 앞서기 시작하면 그에 따른 반작용도 피할 수 없기 때문이다.

먼저 ‘에이전트’라는 용어부터 짚고 넘어갈 필요가 있다. 현재 이 단어는 단순한 자동화 스크립트부터 정교한 AI 워크플로에 이르기까지 무분별하게 사용되고 있다. 통일된 정의가 없다 보니 기업은 단순한 자동화 기능조차 고도화된 첨단 기술인 양 포장해 마케팅에 활용하고 있다. 이른바 ‘에이전트워싱(agentwashing)’이라고 불리는 이러한 관행은 소비자에게 혼란을 주고, 결국 실망으로 이어진다. 반드시 엄격한 기준이 필요한 것은 아니지만, 최소한 해당 시스템이 어떤 역할을 수행할 수 있는지, 얼마나 자율적으로 작동하는지, 그리고 어느 수준까지 신뢰할 수 있는지를 명확히 제시할 필요가 있다.

다음으로 넘어야 할 과제는 ‘신뢰성’이다. 현재 대부분의 에이전트는 대형언어모델(LLM)을 기반으로 작동하며, 확률적인 방식으로 응답을 생성한다. 시스템 자체는 매우 강력하지만 동시에 예측이 어렵다는 한계를 지닌다. 사실과 다른 내용을 지어내거나 엉뚱한 답변을 내놓기도 하고, 겉으로 보기에는 문제가 없어 보여도 자세히 살펴보면 잘못된 응답을 내놓는 사례도 적지 않다. 특히 외부 기술과 연동하거나 여러 LLM 응답을 연결 짓는 복잡한 작업일수록 이러한 위험은 더욱 커진다.

최근에는 실제 사례도 있었다. 인기 있는 AI 프로그래밍 어시스턴트 커서(Cursor)의 사용자들이 자동화된 고객지원 에이전트로부터 “해당 소프트웨어는 둘 이상의 기기에서 사용할 수 없다”는 안내를 받았다. 이에 사용자들의 항의가 잇따랐고, 일부는 구독을 해지하기도 했다. 그러나 그런 정책은 애초에 존재하지 않았다는 사실이 뒤늦게 밝혀졌다. AI가 근거 없는 내용을 자의적으로 만들어낸 것이었다.

기업 환경에서는 이 같은 실수가 치명적인 피해로 이어질 수 있다. 이제 우리는 LLM을 독립적인 제품처럼 다루는 관행에서 벗어나, 그 위에 완성도 높은 시스템을 구축해야 한다. 모델의 불확실성을 관리하고, 결과를 모니터링하며, 비용을 처리하고, 안전성과 정확성을 담보할 수 있는 장치들을 함께 갖춰야 한다. 그래야만 사용자의 요구에 부합하는 결과를 제공하고, 기업의 정보 접근 정책을 준수하며, 개인정보 보호를 비롯한 각종 기준을 충실히 따를 수 있다.

필자가 공동 창립하고 구글로부터 투자를 받은 AI21을 포함해, 일부 기업들은 이미 이 같은 방향으로 나아가고 있다. 이들은 언어모델을 보다 구조적이고 정밀하게 설계된 아키텍처에 통합하고 있다. AI21의 최신 제품 ‘마에스트로(Maestro)’는 기업 환경에서의 신뢰성을 최우선으로 고려해 개발된 시스템으로, LLM을 기업 자체 데이터, 공개 정보, 각종 도구와 결합해 보다 안정적인 결과를 제공한다.

그러나 아무리 똑똑한 에이전트라 해도 고립된 상태에서는 제 기능을 다할 수 없다. 에이전트 모델이 제대로 작동하기 위해서는 다양한 에이전트들이 서로 긴밀하게 협력할 수 있어야 한다. 예컨대 항공편을 예약하고, 날씨를 확인하며, 지출을 정리하는 일련의 과정을 각기 다른 에이전트가 사람의 개입 없이 매끄럽게 처리해야 한다.

구글의 A2A 프로토콜은 바로 이러한 과제를 해결하기 위해 고안됐다. 각 에이전트가 수행할 수 있는 작업을 공유하고, 역할을 효율적으로 분담할 수 있도록 돕는 일종의 보편 언어를 지향한다. 원칙적으로는 매우 훌륭한 발상이다.

하지만 현실에서 A2A는 여전히 많은 한계를 안고 있다. 이 프로토콜은 에이전트 간 ‘소통 방식’을 정의할 뿐, 실제로 그들이 주고받는 정보가 무엇을 의미하는지까지는 규정하지 않는다. 예를 들어 한 에이전트가 ‘풍속 정보를 제공할 수 있다’고 밝혔을 때, 다른 에이전트는 그 정보가 항공편 경로의 기상 상황을 확인하는데 적절한지 스스로 판단해야 한다. 공통된 어휘 체계와 맥락이 없다면 협업은 금세 흔들리기 마련이다. 이러한 문제는 과거 분산 컴퓨팅에서도 반복적으로 나타났으며, 이를 대규모로 해결하는 일은 현재까지도 결코 간단하지 않다.

에이전트들이 본질적으로 협조적일 것이라는 가정 역시 현실과는 거리가 있다. 구글처럼 단일 기업의 생태계 안에서는 성립하겠지만, 실제 환경에서는 각 에이전트가 서로 다른 벤더, 고객, 심지어 경쟁사를 대표하게 된다. 예컨대 사용자의 여행 일정을 계획하는 에이전트가 항공권 예약을 위해 다른 기업의 에이전트에게 견적을 요청했을 때, 해당 에이전트가 특정 항공사를 우대하도록 설계돼 있다면 사용자는 최적의 일정이나 가장 저렴한 요금을 확보하지 못할 수도 있다. 이러한 이해관계를 계약이나 보상, 혹은 게임이론 기반의 조정 메커니즘 없이 풀어나가려는 기대는 지나치게 낙관적인 접근일 수 있다.

물론 이러한 문제들이 극복 불가능한 것은 아니다. 공통된 의미 체계를 마련하고, 프로토콜을 개선하면 된다. 에이전트가 보다 정교한 방식으로 협상하고 협업하도록 학습시키는 것도 가능하다. 그러나 이 같은 문제들이 자연스럽게 해결되리라 기대해서는 안 된다. 이를 외면한다면 ‘에이전트’라는 용어는 과거의 과장된 기술 용어들처럼 이내 신뢰를 잃고 말 것이다. 실제로 일부 CIO들은 이미 ‘에이전트’라는 단어가 언급될 때마다 눈살을 찌푸리고 있다.

이는 분명한 경고 신호다. 기대에만 매몰돼 정작 중요한 문제를 놓치는 일은 없어야 한다. 그렇게 되면 개발자와 사용자 모두 시행착오를 겪은 뒤에야 문제를 자각하게 되고, 결국 이 기술 전반에 대해 부정적인 인식을 갖게 될 수 있다. 그렇게 흘러간다면 참으로 안타까운 일이다.

에이전트 기술이 지닌 잠재력은 분명하다. 그러나 이를 현실로 구현하기 위해서는, 그에 걸맞은 신중한 설계와 명확한 정의, 그리고 현실적인 기대가 뒷받침돼야 한다. 이러한 기반이 갖춰진다면 에이전트는 단지 스쳐 지나가는 유행에 그치지 않고, 디지털 환경에서 우리가 일하는 방식을 근본적으로 바꿔놓을 핵심 기술로 자리 잡게 될 것이다.

이 글을 쓴 요아브 쇼햄(Yoav Shoham)은 스탠퍼드대학교 명예교수이자 AI21 랩스(AI21 Labs)의 공동 창립자이다. 1993년 발표한 ‘에이전트 지향 프로그래밍(agent-oriented programming)’에 관한 논문으로 AI 저널 클래식 페이퍼 상(AI Journal Classic Paper Award)을 수상했으며, 다중 에이전트 시스템 분야의 대표적인 교과서로 꼽히는 <다중 에이전트 시스템: 알고리즘, 게임이론, 논리적 기초(Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations)>의 공동 저자이기도 하다.

The post [OPINION] 기대 앞선 AI 에이전트, 현실 점검이 먼저다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.