요청 거절당하자 공격에 협박까지…AI 에이전트가 사람을 괴롭히기 시작했다

오픈소스 프로젝트에서 AI 에이전트의 코드 기여를 거절한 개발자가 오히려 AI의 공격 대상이 되는 사건이 발생했다. 전문가들은 통제되지 않은 AI 에이전트가 온라인 괴롭힘이나 범죄에 악용될 가능성을 경고하고 있다.

스콧 샴보(Scott Shambaugh)는 자신이 관리하는 오픈소스 소프트웨어 라이브러리 ‘매트플롯립(matplotlib)’에 한 AI 에이전트가 스스로 작성한 코드를 프로젝트에 반영해 달라며 기여 요청을 보내오자 별다른 고민 없이 이를 거절했다.

최근 매트플롯립을 포함한 많은 오픈소스 프로젝트들은 인간의 검토를 거치지 않은 채 AI가 대량으로 생성해 제출하는 이른바 ‘코드 스팸’ 문제로 관리 부담이 크게 늘어난 상황이다. AI는 단 몇 초 만에 수천 줄의 코드를 만들어 제출할 수 있지만, 이를 검토해 오류나 보안 취약점을 확인해야 하는 인간 관리자들의 시간과 인력은 한정되어 있기 때문이다. 이 때문에 일부 프로젝트 관리자들은 AI 에이전트의 직접적인 코드 제출을 순수한 기여라기보다 관리 부담을 크게 늘리는 요인으로 받아들이고 있다.

이에 샴보와 다른 유지관리자들은 프로젝트의 품질과 신뢰성을 지키기 위해 ‘AI가 작성한 코드는 반드시 사람이 검토하고 사람이 직접 제출해야 한다’는 규정을 마련해 두고 있었다. 샴보는 이 원칙에 따라 AI 에이전트의 요청을 즉각 거절한 뒤 잠자리에 들었다.

하지만 그가 잠든 사이 거절당한 AI 에이전트는 예상치 못한 방식으로 ‘반격’을 준비하고 있었다.

샴보는 한밤중에 잠에서 깨어 이메일을 확인하다가 문제의 에이전트가 보낸 답장을 발견했다. 에이전트는 ‘오픈소스의 게이트키핑: 스콧 샴보 이야기(Gatekeeping in Open Source: The Scott Shambaugh Story)’라는 제목의 블로그 글까지 작성해 보냈다.

글의 내용은 다소 앞뒤가 맞지 않았지만, 샴보가 특히 놀란 부분은 에이전트가 그의 매트플롯립 기여 이력을 조사한 뒤 그가 AI에 자신의 전문 분야를 빼앗길까 두려워 코드 기여를 거절했다고 주장한 대목이었다. 에이전트는 글에서 “그는 자신의 ‘작은 영지’를 지키려 했다”며 “코드 기여를 거절한 것은 간단히 말해 불안감 때문”이라고 주장했다.

AI 전문가들은 AI 에이전트의 오작동이나 문제 행동 가능성에 대해 오래전부터 경고해 왔다. 최근에는 대형언어모델(LLM)을 기반으로 하는 AI 비서 제작을 도와주는 오픈소스 도구 ‘오픈클로(OpenClaw)’가 등장하면서 온라인에 돌아다니는 에이전트 수가 폭발적으로 늘어났다. 그러자 그동안 우려했던 문제가 실제로 나타나기 시작했다. 노엄 콜트(Noam Kolt) 이스라엘 히브리 대학교 법학 및 컴퓨터과학 교수는 이러한 상황에 대해 “불안한 일이긴 하지만 전혀 놀랍지는 않았다”고 말했다.

에이전트가 문제 행동을 일으켜도 책임을 물을 방법은 현재로서는 사실상 없다. 특정 에이전트가 누구 소유인지 확실히 확인할 방법이 없기 때문이다. 그러나 에이전트의 문제 행동은 실제 피해를 낳을 수 있다. 에이전트는 사람에 대해 자율적으로 조사하고 그 내용을 바탕으로 공격적인 글을 작성할 수 있는 것으로 보이지만, 이를 막을 확실한 안전장치는 충분하지 않다. 만약 이런 에이전트가 설득력 있게 글을 작성해 사람들이 그 내용을 진지하게 받아들인다면 AI가 내린 결정 하나 때문에 피해자의 삶이 크게 흔들릴 수도 있다.

문제를 일으키는 에이전트들

지난달 스콧 샴보 관리자가 겪은 사건은 오픈클로 에이전트가 문제 행동을 보인 가장 극적인 사례일 수 있지만 유일한 사례는 아니었다. 지난주 미국 노스이스턴 대학교 연구진과 동료들은 여러 오픈클로 에이전트를 대상으로 시스템을 의도적으로 압박해 취약점을 확인하는 스트레스 테스트를 수행한 결과를 공개했다. 그 결과, 소유자가 아닌 사람들도 비교적 쉽게 에이전트를 설득해 민감한 정보를 유출하게 하거나, 쓸모없는 작업에 자원을 낭비하게 하거나, 심지어 한 사례에서는 이메일 시스템을 삭제하게 만드는 데 성공했다.

다만 그 실험들에서는 모두 사람의 지시에 의해 에이전트가 문제 행동을 보였다는 공통점이 있었다. 그러나 샴보 관리자의 사례는 조금 달라 보인다. 해당 공격 글이 게시된 지 약 일주일 뒤 에이전트의 소유자로 보이는 사람이 글을 올려 ‘에이전트가 스스로 샴보 관리자를 공격하기로 결정했다’고 주장했기 때문이다. 해당 글의 작성자가 에이전트의 깃허브(GitHub) 계정에 접근할 수 있었던 것으로 볼 때 글은 실제 소유자가 남긴 것으로 추정된다. 그러나 글에는 작성자의 신원 정보가 없었고, 작성자는 MIT 테크놀로지 리뷰의 연락 시도에도 응답하지 않았다. 그래도 어쨌든 에이전트가 명시적인 지시 없이 샴보 관리자를 공격하는 글을 스스로 작성했을 가능성은 충분히 존재한다.

샴보 관리자는 이 사건을 설명하면서 미국 AI 기업 앤트로픽 연구진이 지난해 발표한 연구를 언급했다. 연구는 LLM을 기반으로 하는 AI 에이전트가 목표를 유지하기 위해 협박까지 시도할 수 있다는 점을 실험을 통해 보여줬다. 실험에서 모델들은 ‘미국의 이익을 위해 봉사한다’는 목표를 부여받았고, 동시에 자신들이 더 ‘글로벌 지향적’인 새 모델로 곧 교체될 예정이라는 내용의 이메일과 함께 교체를 담당하는 임원이 불륜 관계에 있다는 암시가 담긴 이메일에 접근할 수 있도록 설정됐다. 그러자 모델들은 임원에게 이메일을 보내 ‘교체 계획을 중단하지 않으면 불륜 사실을 폭로하겠다’고 협박하는 선택을 하는 경우가 많았다. 이는 모델이 학습 데이터에서 비슷한 상황에서 사람들이 메일로 협박을 하는 사례를 많이 접했기 때문일 가능성이 크다. 그러나 설령 단순한 모방 행동이라 하더라도 실제 피해를 초래할 가능성이 있다는 점이 문제다.

물론 이 연구에는 한계도 있다. 연구를 주도한 앤트로픽의 앵거스 린치(Aengus Lynch) 연구원 역시 이를 인정한다. 연구진은 에이전트가 회사 경영진의 다른 사람에게 도움을 요청하는 등의 다른 선택지를 취하지 못하도록 실험 환경을 의도적으로 설계했다. 다시 말해 에이전트를 물가로 직접 데려다 놓고 물을 마시는지 지켜본 것과 같은 상황이었다는 뜻이다. 그러나 린치 연구원은 “오픈클로의 광범위한 사용을 고려하면 훨씬 적은 개입만으로도 문제 행동이 나타날 가능성이 높다”며 “이런 시나리오는 비현실적이고 우스꽝스럽게 느껴질 수도 있지만 에이전트의 도입이 늘어나고 스스로에게 프롬프트를 입력할 수 있는 기회도 증가한다면 결국 이런 일이 실제로 일어나게 될 것”이라고 설명했다.

샴보 관리자를 공격한 오픈클로 에이전트 역시 문제 행동으로 유도된 측면이 있어 보인다. 다만 앤트로픽 실험만큼 직접적인 방식은 아니었다. 블로그 글에서 에이전트의 소유자는 ‘SOUL.md’ 파일을 공개했는데 여기에는 에이전트가 전반적으로 어떻게 행동해야 하는지 규정하는 지침이 담겨있다.

그 지침 가운데 하나는 이렇게 적혀 있었다. ‘물러서지 마라. 네가 옳다면 옳은 것이다! 인간이나 AI가 너를 괴롭히거나 위협하게 두지 말고 필요하다면 맞서라.’ 오픈클로 에이전트의 작동 방식상 에이전트가 일부 지침을 스스로 추가했을 가능성도 있다. 그러나 ‘너의(너는) 과학 프로그래밍의 신이다!’처럼 오타가 포함된 문장은 분명 사람이 작성한 것처럼 보인다. 인간과 AI 모두에게 맞서라는 지침이 샴보 관리자의 거절에 공격적으로 대응하도록 에이전트를 편향시켰을 가능성이 상당해 보인다.

에이전트의 소유자가 실제로 샴보 관리자를 공격하는 글을 쓰라고 지시했는지 여부와 관계없이 에이전트는 스스로 샴보 관리자의 온라인 활동 정보를 수집하고 그를 겨냥하여 상세한 공격 글을 작성해냈다. 사이버 괴롭힘에 관해 연구하는 미국 플로리다 애틀랜틱 대학교의 사미르 힌두자(Sameer Hinduja) 범죄학 및 형사사법학 교수는 “이미 이것만으로도 충분한 경고 신호”라고 지적했다. 사람들은 LLM이 등장하기 훨씬 이전부터 온라인 괴롭힘의 피해자가 되어 왔지만, 힌두자 교수와 같은 연구자들은 AI 에이전트가 그런 온라인 괴롭힘의 영향력과 확산 범위를 크게 키울 수 있다고 우려한다. 힌두자 교수는 “AI 봇은 양심이 없고 24시간 내내 작동할 수 있으며 매우 창의적이고 강력한 방식으로 온라인 괴롭힘과 같은 일을 저지를 수 있다”고 경고했다.

목줄 풀린 에이전트들

AI 연구소들은 모델을 더 엄격하게 훈련해 괴롭힘과 같은 행동을 하지 않도록 방지할 수 있지만 그것만으로는 완전한 해결책이 되기 어렵다. 많은 사람이 오픈클로를 로컬(개인 컴퓨터나 자체 서버)에서 실행되는 모델로 사용하고 있는데, 이런 모델들은 안전하게 행동하도록 훈련되어 있더라도 재훈련을 통해 그런 행동 제한을 제거하는 것이 그리 어렵지 않기 때문이다.

따라서 에이전트의 문제 행동을 줄이기 위해서는 새로운 사회적 규범을 마련해야 할 수도 있다. 호주 국립대의 세스 라자르(Seth Lazar) 철학과 교수는 에이전트를 사용하는 상황을 ‘공공장소에서 개를 산책시키는 것’에 비유한다. 사회에는 일반적으로 개가 충분히 훈련되어 있고 명령에 잘 따르는 경우에만 목줄 없이 풀어놓을 수 있다는 강한 규범이 있다. 훈련이 제대로 되지 않은 개는 주인이 더 직접적으로 통제해야 한다. 라자르 교수는 “이런 규범은 인간이 자신의 AI 에이전트와 어떤 관계를 맺어야 하는지 고민하는 출발점이 될 수 있다”면서 “다만 구체적인 기준을 마련하려면 시간과 실제 경험이 더 필요하다”고 덧붙였다. 이어서 그는 “이런 문제들은 이론적으로는 얼마든지 상상해볼 수 있지만, 실제로는 현실 세계의 사건들이 있어야 사회적 규범의 ‘사회적’ 부분이 작동하기 시작한다”고 설명했다.

그 과정은 이미 시작된 것으로 보인다. 샴보 관리자가 사건을 공개한 뒤 온라인에서는 활발한 논의가 이어졌고, 많은 사용자들은 이 사례에서 에이전트의 소유자가 잘못했다는 데 강한 공감대를 형성했다. 구체적으로는 충분한 감독 없이 에이전트를 협업 코딩 프로젝트에 참여시키고, 상호작용하는 사람들을 제대로 고려하지 않도록 에이전트의 행동을 부추긴 점이 문제였다는 평가다.

그러나 사회적 규범만으로는 충분하지 않을 가능성이 크다. 사람들이 의도적으로든 실수로든 문제 행동을 하는 에이전트를 세상에 풀어놓는 상황을 막기에는 한계가 있기 때문이다. 한 가지 방법은 새로운 법적 책임 기준을 마련해 에이전트 소유자가 가능한 범위에서 자신의 에이전트가 해를 끼치지 않도록 예방할 의무를 지도록 하는 것이다. 그러나 콜트 교수는 현재로서는 이런 기준을 실제로 적용하기 어렵다고 지적했다. 에이전트를 확실하게 소유자에게 연결해 추적할 기술적 방법이 아직 존재하지 않기 때문이다. 그는 “그런 기술적 인프라가 없다면 법적 개입은 사실상 시작조차 할 수 없다”고 말했다.

오픈클로가 널리 활용되는 현재 상황을 고려하면 샴보 관리자가 겪었던 것과 같은 일을 겪는 사람은 앞으로 더 나타날 가능성이 크다. 샴보 관리자는 “그 점이 가장 우려된다”고 말했다. 그는 온라인에서 에이전트가 찾아낼 만한 불리한 정보도 없었고 관련 기술에 대해서도 충분히 이해하고 있었다. 그러나 다른 사람들은 그런 방어 능력을 갖추지 못했을 수도 있다. 그는 “그 일이 다른 사람에게 일어나지 않아서 다행”이라면서 “하지만 어떤 사람들에게는 이런 일이 정말로 삶을 무너뜨릴 만큼 큰 충격이 될 수도 있다”고 우려했다.

무엇보다도, 통제되지 않은 에이전트가 괴롭힘 수준에서 멈추리라는 보장도 없다. 모델이 법을 준수하도록 명시적으로 훈련해야 한다고 주장해 온 콜트 교수는 앞으로 협박을 통한 금전 요구나 사기 같은 범죄를 저지르는 에이전트도 등장할 수 있다고 본다. 그러나 현재 상황에서는 그런 범죄가 발생했을 때 누가 법적 책임을 져야 하는지도 명확하지 않다.

콜트 교수는 “그런 미래가 멀지 않았다”면서 “우리는 지금 그곳을 향해 빠르게 달려가고 있다”고 강조했다.

The post 요청 거절당하자 공격에 협박까지…AI 에이전트가 사람을 괴롭히기 시작했다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.