구글·앤트로픽, ‘에이전트 시대’ 위한 프로토콜 구축 나선다

구글과 앤트로픽은 디지털 환경에서 AI 에이전트를 더 효율적으로 활용하기 위한 프로토콜을 개발하고 있다. 하지만 보안·개방성·효율성 등 여전히 풀어야 할 과제도 많다.

이메일을 대신 보내고, 문서를 작성하거나, 데이터베이스를 수정하는 등 실제 업무를 수행할 수 있는 ‘AI 에이전트’를 내세우는 기업들이 빠르게 늘고 있다. 하지만 지금까지의 평가는 썩 긍정적이지 않다. 에이전트들이 일상적인 디지털 환경에서 쓰이는 다양한 기술과 아직 원활하게 연동되지 않기 때문이다.

이는 필요한 인프라가 충분히 갖춰지지 않았기 때문이기도 하다. AI 에이전트가 사람을 대신해 일을 처리하려면 적절한 도구를 제공하는 동시에 그 기능이 책임 있게 활용되도록 통제할 장치도 함께 마련돼야 한다.

앤트로픽과 구글은 이러한 문제를 해결하기 위해 지난 1년간 각각 AI 에이전트가 다른 에이전트 및 외부 세계와 어떻게 상호작용해야 하는지를 규정하는 프로토콜을 도입했다. 목표는 간단하다. 이메일이나 메모 앱처럼 일상적으로 사용하는 프로그램과 에이전트 간의 연동을 더욱 원활하게 만들겠다는 것이다.

이 같은 접근이 중요한 이유는 오늘날 온라인 환경을 구성하는 핵심 연결 고리인 ‘애플리케이션 프로그래밍 인터페이스(API)’ 때문이다. 현재의 API는 특정 요청에 따라 정해진 방식으로 정보를 반환하도록 설계돼 있지만, 대형언어모델(LLM)은 본질적으로 항상 같은 방식으로 작동하지 않는다. 사람처럼 대화하고 감정을 표현하도록 설계된 이 모델들은 일정 수준의 무작위성을 지니고 있어 보다 자연스러운 응답을 생성할 수 있지만, 동시에 API를 호출하거나 응답을 해석하는 데는 어려움을 겪는다.

앤트로픽의 테오 추(Theo Chu) 프로젝트 매니저는 “모델은 자연어로 소통한다”며 “모델이 맥락을 파악하고 이를 바탕으로 작업을 수행하려면 먼저 그 맥락을 모델이 이해할 수 있는 형식으로 변환하는 과정이 필요하다”고 설명했다. 그는 지난해 앤트로픽이 발표한 ‘모델 컨텍스트 프로토콜(Model Context Protocol, MCP)’ 개발에 참여했으며, MCP는 바로 이 변환 과정을 구현하기 위한 시도다.

MCP는 에이전트가 다양한 프로그램과 연결돼 외부 세계와 상호작용하는 방식을 표준화하려는 기술로, 이미 업계의 높은 관심을 받고 있다. MCP 서버들을 한데 모아 보여주는 웹 애그리게이터(web aggregator)에는 현재 1만 5,000개가 넘는 서버가 등록돼 있다.

에이전트 간의 상호작용 방식을 규정하는 일은 외부 애플리케이션과의 연결보다 훨씬 더 복잡한 과제로 꼽힌다. 구글은 이에 대응하기 위해 지난 4월 ‘A2A 프로토콜(Agent2Agent protocol)’을 공개했다. MCP가 자연어와 코드 사이의 요청을 변환하는 데 중점을 둔다면, A2A는 에이전트 간의 직접적인 소통을 조율하는 데 초점을 맞춘다.

구글 클라우드의 라오 수라파네니(Rao Surapaneni) A2A 프로젝트 담당자는 MIT 테크놀로지 리뷰와의 이메일 인터뷰에서 “이제 단일 기능에만 머무는 에이전트를 넘어서는 것이 업계의 다음 과제”라며 “A2A는 그 기반을 마련하려는 시도”라고 설명했다.

구글에 따르면 현재 어도비와 세일즈포스를 포함한 150여 개 기업이 A2A 개발과 도입에 참여하고 있다. MCP와 A2A 모두 AI 에이전트가 외부 서비스와 더 안전하게 상호작용할 수 있도록 돕는 것을 목표로 한다. 무엇을 해야 하고, 어떻게 행동해야 하며, 무엇을 해서는 안 되는지를 명확하게 전달해주는 역할을 하는 것이다.

두 프로토콜은 상호 보완적인 성격을 띤다. A2A를 통해 서로 소통하는 에이전트들이 각자의 MCP를 활용해 필요한 정보를 주고받는 방식으로 작동할 수 있다. 다만 테오 추는 “MCP는 아직 초기 단계에 머물러 있다”며 “A2A 역시 해결해야 할 과제가 많다”고 지적했다.

이제부터는 MCP와 A2A를 비롯한 에이전트 프로토콜들이 마주하게 될 세 가지 핵심 과제, 즉 보안, 개방성, 효율성에 대해 하나씩 짚어본다.

AI 에이전트용 프로토콜의 ‘보안’ 쟁점

AI 모델의 작동 원리는 아직 완전히 규명되지 않았으며, 새로운 보안 취약점도 끊임없이 발견되고 있다. 단순한 챗봇조차 악의적인 공격에 노출될 경우 학습 데이터를 그대로 노출하거나 혐오 표현을 되풀이하는 등 다양한 방식으로 오작동할 수 있다. 하물며 사용자를 대신해 외부 세계와 직접 상호작용하는 AI 에이전트라면 그 위험은 훨씬 더 클 수밖에 없다.

실제로 한 AI 에이전트는 사용자의 이메일을 읽고 답장을 보내도록 설계됐지만, ‘간접 프롬프트 주입 공격(indirect prompt injection attack)’에 취약한 것으로 드러났다. 특정 방식으로 작성된 이메일이 에이전트를 장악해 의도치 않은 동작을 유도할 수 있는 것이다. 만약 해당 에이전트가 사용자의 파일에 접근할 수 있는 권한까지 갖고 있었다면 공격자의 명령에 따라 민감한 문서를 외부로 전송하는 일도 가능했을 것이다.

일부 연구자들은 MCP와 같은 프로토콜이 이러한 유해한 행동을 사전에 차단하는 기능까지 갖춰야 한다고 주장한다. 그러나 현재 MCP는 그러한 보안 체계를 갖추고 있지 않다. MCP를 직접 활용하고 있는 시카고대학교 박사 과정 연구원 자오룬 천(Zhaorun Chen)은 “기본적으로 MCP에는 보안을 고려한 설계가 전혀 없다”고 지적했다.

보안 전문가이자 활동가인 브루스 슈나이어(Bruce Schneier) 역시 회의적인 입장을 내놨다. 그는 “MCP 같은 프로토콜이 AI에 내재된 위험을 실질적으로 줄일 수 있을 것이라고 기대하긴 어렵다”며 “이러한 기술에 더 많은 권한이 부여될수록 초래할 수 있는 피해 역시 그만큼 커질 것”이라고 우려했다. 이어 “이런 기술을 어떻게 안전하게 만들 수 있을지에 대해 아직 뚜렷한 해답을 갖고 있지 않다”며 “이대로라면 머지않아 보안 지옥이 펼쳐질 것”이라고 경고했다.

프로토콜 ‘개방’의 필요성

MCP와 A2A는 현재 가장 널리 쓰이는 AI 에이전트용 프로토콜이지만 이외에도 다양한 접근 방식이 새롭게 등장하고 있다. 시스코와 IBM 등 대형 기술 기업들은 각자의 내부 시스템에 맞춘 독자적 프로토콜을 개발 중이며, 옥스퍼드대학교 연구진이 설계한 ‘아고라(Agora)’는 자연어로 이뤄진 에이전트-서비스 간 소통을 구조화된 실시간 데이터로 전환하는 새로운 방식으로 주목받고 있다.

일부 개발자들은 언젠가 신뢰할 수 있는 시스템들을 한데 모아 관리하는 일종의 ‘등록소(registry)’가 마련되기를 기대하고 있다. 자오룬 천을 비롯한 일부 연구자들은 “사용자들이 도구를 평가할 수 있도록 AI 에이전트 생태계에도 ‘옐프(Yelp)’ 같은 시스템이 필요하다”고 말한다. 옐프는 사람들이 지역 비즈니스(음식점, 카페, 미용실, 병원 등)를 찾고 리뷰를 남기고 평가할 수 있게 해 주는 온라인 플랫폼이다. 몇몇 소규모 프로토콜은 MCP나 A2A 위에 블록체인 기술을 더해 서버가 스팸이 아님을 검증할 수 있도록 설계되기도 했다.

MCP와 A2A는 모두 오픈소스로 공개돼 있다. 표준 기술로 자리 잡기를 원하는 시스템이 자주 택하는 방식으로, 누구나 개발에 참여할 수 있도록 공개해 기술의 발전 속도를 높이고 투명성도 확보할 수 있다.

아마존웹서비스(AWS)에서 개발자 경험 부문을 총괄하며 MCP와 A2A를 비롯한 다양한 오픈소스 프로젝트와 협력 중인 데이비드 낼리(David Nalley)는 “여러 사람이 함께 기술을 개발하면 각자가 따로 중복된 작업을 하지 않아도 되기 때문에 전체적으로 시간을 절약할 수 있다”고 설명했다.

그는 지난 6월 구글이 오픈소스 프로젝트를 관리하는 비영리 단체인 리눅스재단(Linux Foundation)에 A2A를 기부하는 과정을 총괄했다. 이를 계기로 A2A는 구글 내부 개발자뿐 아니라 외부 커뮤니티와도 공동 개발이 가능해졌으며, 향후 방향성 역시 다양한 이해관계자들의 의견을 반영할 수 있게 됐다.

반면 MCP는 앤트로픽이 직접 소유하고 있으며 무료 라이선스를 통해 외부에 제공되고 있다. 그러나 핵심 코드베이스가 여전히 앤트로픽의 통제 아래 있다는 점에서 일부 오픈소스 지지자들은 우려의 목소리를 낸다. 프로토콜이 진정한 공개 기술로 기능하려면 누구나 자유롭게 개발에 참여할 수 있어야 한다는 주장이다.

낼리는 “단일 조직이나 인물이 모든 권한을 쥐는 구조에는 분명 위험이 따른다”며 “대부분의 개발자는 다양한 주체가 논의에 함께 참여해 프로토콜에 모두의 이익을 반영할 수 있기를 바란다”고 말했다.

다만 그는 앤트로픽이 지금까지는 책임감 있게 운영돼 왔다고 평가했다. “앤트로픽의 라이선스는 매우 관대하며 누구든 필요할 경우 자신만의 버전으로 만들 수 있다”고 설명했다. 실제로 IBM이 개발한 에이전트 커뮤니케이션 프로토콜도 MCP를 기반으로 제작된 사례다.

앤트로픽은 MCP의 향후 발전 방향에 대해 아직 내부 논의 중이다. 현재는 외부 기업들로 구성된 운영위원회와 함께 개발 방향을 조율하고 있지만, 향후에는 소유 구조나 운영 방식에 대해 새로운 접근을 시도할 가능성도 열어두고 있다. 테오 추는 “우리는 MCP의 소유 및 운영 방식에 대해 점진적인 변화를 추진할 계획”이라고 밝혔다.

자연어 인터페이스의 ‘효율성’ 문제

MCP와 A2A는 에이전트 간의 의사소통 방식으로 자연어를 채택하고 있다. 이는 AI 모델이 사용자 질문에 응답할 때 사용하는 방식과 동일하다. 별도의 언어 체계를 학습시키지 않아도 된다는 점에서 자연어 기반 설계는 모델 개발과 운용의 진입 장벽을 낮추는 데 유리한 측면이 있다. 수라파네니는 “에이전트 간에도 사람과 마찬가지로 자연어 인터페이스를 활용하면 각 에이전트에 내장된 지능을 상호 공유할 수 있게 된다”고 전했다.

그러나 자연어는 API와 같은 코드 기반 인터페이스에 비해 정확성과 효율성 면에서 불리하다. 언어의 불확실성 때문에 오작동이나 엉뚱한 응답이 발생할 수 있고, 그만큼 처리 속도와 비용 부담도 커진다.

AI 모델은 일반적으로 텍스트를 ‘토큰(token)’이라는 단위로 분해해 이해하고 응답을 생성한다. 입력 문장을 토큰으로 나눈 뒤 이를 분석해 출력 토큰을 만들고, 다시 이를 단어로 조합해 문장을 구성하는 방식이다. 이때 소모되는 토큰 수는 곧 모델의 처리량을 의미하며 대부분의 AI 플랫폼이 과금 기준으로 삼는 것도 바로 이 토큰 수다.

AI가 토큰 단위로 작동하는 가장 큰 이유는 결과물을 사람이 이해할 수 있는 형태로 출력하기 위해서다. 하지만 기계끼리 주고받는 통신에는 사람이 읽을 수 있는 문장이 굳이 필요하지 않다. 자연어 대신 코드 형태로 직접 처리하는 편이 훨씬 빠르고 효율적이라는 의미다.

문제는 MCP와 A2A 모두 자연어를 기반으로 설계돼 있다는 점이다. 에이전트가 도구나 다른 에이전트와 통신할 때조차 토큰을 사용해야 하며, 이 모든 처리는 사용자에게 보이지 않지만 결국 사람이 읽지도 않을 문장을 만드는 데 막대한 처리 비용이 낭비되는 셈이다. 자오룬 천은 “MCP를 사용하면 토큰 낭비가 상당히 심해진다”며 “이러한 처리 구조는 실제로 상당한 비용을 유발할 수 있다”고 지적했다.

예를 들어 사용자가 에이전트에게 문서 요약을 요청하면 에이전트는 먼저 원문을 읽은 뒤 이를 요약 프로그램에 전달하고, 생성된 요약문을 다시 읽어 사용자에게 전달하는 복잡한 절차를 거친다. 이 과정에서 원문과 요약문을 모두 반복해서 읽고 쓰게 되므로 사용되는 토큰 수는 기하급수적으로 늘어난다. 천은 “이런 방식은 실제 사용 환경에서 매우 비효율적”이라고 강조했다.

MCP와 A2A는 분명 여러 설계적 장점을 지니고 있지만, 동시에 새로운 한계와 문제도 드러내고 있다. 천은 “이 프로토콜들을 실제 환경에서 확장하고 유의미하게 쓰일 수 있도록 만들기까지는 아직 갈 길이 멀다”고 말했다.

The post 구글·앤트로픽, ‘에이전트 시대’ 위한 프로토콜 구축 나선다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.