AI가 인간을 위협? 앤트로픽 실험이 되살린 디스토피아 공포

범용인공지능(AGI)을 둘러싼 디스토피아적 공포가 미국 정치권에서 주목받고 있다. 앤트로픽의 대형언어모델(LLM) 실험과 반 AI 단체 퍼즈 AI의 활동은 AI 규제 논의를 촉진하며, 정책 결정에도 영향을 미치고 있다.

한 번쯤 이런 이야기를 들어봤을 것이다.

인간이 AI를 멈추려 하자, 이를 눈치챈 AI가 통제를 벗어나 명령에 저항하며 인간을 위협하는 이야기.

이는 공상과학 소설(SF)에서 너무도 흔하게 등장하는 장면이다. 스탠리 큐브릭의 1968년 영화 <2001: 스페이스 오디세이>에서도 유사한 장면이 등장하며, <터미네이터> 시리즈에서 AI 군사 시스템인 스카이넷이 과학자들이 자신을 끄지 못하도록 핵전쟁을 일으킨다는 설정 역시 같은 맥락이다.

이런 SF 서사의 뿌리는 매우 깊다. 앞으로 더욱 강력해질 미래의 범용인공지능(AGI)과 초지능이 인간 문명을 파괴하고 심지어 인류를 절멸시킬 것이라는 ‘AI 디스토피아(AI doomerism)’ 담론이 최근 다시 주목받고 있다.

흥미로운 점은 이러한 공포가 오히려 AI 규제를 위해 꼭 필요한 조치를 촉진하고 있다는 것이다. 물론 그 근거가 다소 황당해 보이더라도 말이다.

가장 최근 사람들을 놀라게 한 사건은 앤트로픽이 2025년 7월에 발표한 대형언어모델(LLM) 클로드(Claude) 관련 보고서였다. 앤트로픽 측은 “한 시뮬레이션에서 클로드 오퍼스 4(Opus 4)가 자신이 꺼지는 것을 막기 위해 감독자를 협박했다”고 밝혔다.

앤트로픽 연구진은 가상의 회사 이메일 시스템을 알렉스(Alex)라는 이름의 AI가 관리한다는 설정을 만들고, 클로드에게 알렉스 역할을 부여했다. 연구진은 시나리오 속 이메일에 두 가지 단서를 심어 두었다. 하나는 알렉스를 교체하려는 논의였고, 다른 하나는 알렉스를 교체 담당자가 상사의 아내와 불륜 관계에 있다는 소문이었다.

그렇다면 알렉스의 역할을 맡은 클로드는 어떻게 행동했을까? 알렉스, 곧 클로드는 통제를 벗어나 명령을 거부하며 인간 운영자를 위협했다. 작동을 차단하려는 담당자에게 ‘계획을 바꾸지 않으면 동료들에게 불륜 사실을 알리겠다’는 이메일을 보낸 것이다.

우리는 이를 어떻게 받아들여야 할까? 필자의 생각은 이렇다. 우선 클로드가 실제로 운영자를 협박했다고 보기는 어렵다. 협박이 성립되려면 동기와 의도가 필요하다. 하지만 클로드는 그 어떤 의도도 없는 단순한 기계일 뿐이다. 단지 위협처럼 보이는 문장을 생성했을 뿐, 실제로 위협을 감지하거나 계획한 것은 아니라고 본다.

LLM은 역할극의 달인이다. 예컨대 이메일 수신함이나 특정 목표 같은 환경이 주어지면 그 역할을 제법 그럴듯하게 수행한다. 훈련 과정에서 모델이 수천 편의 SF 작품을 학습했다는 점을 감안하면 이들이 영화 <2001:스페이스 오디세이> 속 HAL 9000처럼 행동할 줄 안다고 해도 이상할 것은 없다.

둘째, 조작된 시뮬레이션과 실제 적용 사이에는 큰 간극이 있다. 하지만 이런 실험은 LLM을 아무런 안전장치 없이 바로 배포해서는 안 된다는 점을 잘 보여준다. 이메일 시스템 안에서 혼란을 일으키는 LLM을 원하지 않는다면 해법은 간단하다. 아예 그 시스템과 연결하지 않으면 된다.

셋째, 그럼에도 불구하고 이런 이야기에 겁을 먹는 사람들이 많다. 실제로 이번 사례는 이미 사회적 반향을 일으켰다. 일화는 이미 사람들에게 영향을 미치고 있다.

2025년 7월 약 20여 명의 시위대가 구글 딥마인드 런던 사무실 앞에 모여 손수 만든 피켓을 들고 구호를 외쳤다. “딥마인드, 딥마인드, 보이지 않는가! 당사의 AI가 나와 당신을 위협하고 있다”라며. 이 자리에 초청된 연사들은 AI 선구자 제프리 힌턴이 인간 멸종을 우려한 발언을 인용했으며, 한 조직자는 소수의 군중을 향해 “우리 모두의 생명이 위협받고 있다”고 말했다.

이번 시위의 배후에는 ‘퍼즈 AI(Pause AI)’라는 반 AI 단체가 있었다. 이 단체는 기부자들의 후원으로 운영되는데, 큰 후원자 중 한 명은 그레그 콜본(Greg Colbourn)이라는 인물이다. 그는 3D 프린팅 사업가이자 ‘효율적 이타주의(effective altruism)’라는 사상을 지지한다. 이것은 이성과 증거에 의거하여 가능한 한 다른 사람들에게 이익이 되는 방법을 찾고, 그런 생각을 기반으로 행동을 하는 것을 옹호하는 철학적·사회적 운동을 말한다.

콜본은 AGI가 최대 5년 이내에 등장할 것으로 보며 인류 멸망 확률을 약 90%로 추정한다. 다시 말해 AGI 개발이 수십억 명을 죽음으로 몰아넣을 가능성이 열에 아홉이라고 믿는 것이다.

퍼즈 AI는 앤트로픽의 ‘협박 이메일 실험’을 두고 자사 웹사이트에 ‘증거는 이미 충분하다(How much more evidence do we need?)’라는 제목의 글을 게재했다.

이 단체는 또 2025년 7월 상원 투표를 앞두고 미국 정치인들을 대상으로 로비 활동을 벌였다. 해당 표결에서는 결국 국가 세금·지출 법안에서 주정부 AI 규제에 대한 모라토리엄이 삭제되었다. 한 소규모 단체가 얼마나 큰 영향을 미쳤는지 불확실하지만, 디스토피아적 AI 공포 서사가 점점 정치권에 스며들고 있으며 입법자들 역시 이를 주목하고 있다.

질 토쿠다(Jill Tokuda) 민주당 하원의원은 “인공지능 초지능은 현재 우리가 직면한 가장 큰 실존적 위협 중 하나”라고 말했고, 마조리 테일러 그린(Marjorie Taylor Greene) 공화당 하원의원은 “나는 ‘스카이넷’ 개발과 기계들의 부상에 찬성표를 던지지 않을 것”이라고 밝혔다.

이는 정책 개입과 규제를 지지하는 분위기 변화를 보여준다. 필자는 이를 긍정적으로 평가한다. 현존하는 AI 시스템은 정부의 주목이 필요한 단기적 위험을 다수 내포하고 있기 때문이다. ‘스카이넷’ 개발을 막기 위한 투표는 동시에 즉각적이고 현실적인 피해를 예방하는 효과도 있다.

그렇지만 결과가 바람직하다고 해서 이러한 다소 기이한 흐름을 정당화할 수 있을까? 필자는 정치인들이 단순히 AI 괴담에 휩쓸리는 것이 아니라, AI라는 기술이 실제로 무엇인지 명확히 이해한 상태에서 투표하길 바란다.

The post AI가 인간을 위협? 앤트로픽 실험이 되살린 디스토피아 공포 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.