AI가 사용자 정보를 ‘기억’하는 시대, 우리 개인정보는 안전할까?

정보를 기억하는 AI 에이전트의 기술적 구조로 인해 사용자의 삶 전체가 노출되는 개인정보 침해 문제가 발생할 수 있다.

AI 챗봇과 에이전트 경쟁의 핵심이 이제 ‘사용자를 얼마나 잘 기억하는가’로 옮겨가고 있다.

1월 초 구글은 자사의 제미나이 챗봇과 상호작용하는 새로운 방식인 ‘퍼스널 인텔리전스(Personal Intelligence)’를 발표했다. 이는 사용자의 지메일, 사진, 검색 기록, 유튜브 시청 기록 등을 활용해 제미나이를 ‘더 개인화되고, 능동적이며, 강력한 도구’로 만드는 기능이다. 이번 시도는 오픈AI, 앤트로픽, 메타가 자사 AI 제품에 사용자의 개인 정보와 선호도를 기억해 활용하는 기능을 추가하려는 흐름과도 맞닿아 있다. 이러한 기능은 분명 이점이 있을 수 있지만, 동시에 이처럼 복잡한 기술이 불러올 새로운 위험에 대해서도 충분히 대비해야 할 필요가 있다.

강력한 개인화와 상호작용 기능을 갖춘 AI 시스템은 사용자를 대신해 행동하고, 대화의 맥락을 이어 가며, 여행 예약부터 세금 신고까지 다양한 작업을 더 효율적으로 수행할 수 있도록 설계돼 있다. 개발자의 코딩 스타일을 학습하는 도구부터 수천 개의 상품을 분석하는 쇼핑 에이전트까지, 이러한 시스템들은 사용자에 관한 사적인 정보를 저장하고 다시 불러오는 능력을 활용한다.

그러나 시간이 지날수록 ‘빅데이터’가 처음으로 사용자 패턴을 포착하고 활용하는 능력을 보여주기 시작한 이래로 반복되어 온 개인정보 보안 취약성 문제가 다시 등장한다. 더 우려스러운 점은 이제 AI 에이전트가 이러한 위험을 막기 위해 마련됐던 기존의 안전장치마저 무력화할 가능성이 커지고 있다는 것이다.

오늘날 우리는 대화형 인터페이스를 통해 AI 시스템과 상호작용하며, 상황에 따라 요청의 맥락을 자주 전환한다. 가령 하나의 AI 에이전트에 상사에게 보낼 이메일 초안을 부탁했다가, 의료 조언을 구하고, 연말 선물 예산을 짜게 하고, 인간관계 갈등에 대한 조언을 요청할 수도 있다. 문제는 대부분의 AI 에이전트가 이렇게 서로 다른 맥락에서 생성된 데이터를 하나의 비정형 저장소에 모두 모아 관리한다는 점이다. 과거에는 목적이나 권한에 따라 분리돼 있던 정보가 한데 섞여 있는 것이다. 게다가 AI 에이전트가 외부 앱이나 다른 에이전트와 연결돼 작업을 수행할 경우 저장된 데이터가 공유된 공간으로 흘러들 수 있다. AI 에이전트의 이러한 기술적 구조로 인해 개인의 삶 전반을 구성하는 데이터 조각들 전체가 노출되는 전례 없는 개인정보 침해가 발생할 가능성이 있다.

모든 정보가 하나의 저장소에 모이면 원하지 않는 방식으로 정보가 노출되기 쉬워진다. 예를 들어 식료품 쇼핑 목록을 만들기 위해 식습관에 관해 나눈 가벼운 대화가 이후 건강보험 상품 추천에 영향을 미칠 수도 있고, 휠체어 접근이 가능한 식당을 찾았던 기록이 연봉 협상 과정에까지 반영될 수도 있다. 무엇보다도 이런 일은 사용자 본인이 전혀 인지하지 못한 상황에서 벌어질 수 있다. 이러한 우려는 ‘빅데이터’ 시대 초기에도 제기됐지만 지금은 훨씬 현실적인 문제다. 기억이 뒤섞인 데이터 조각들은 개인정보 침해 문제를 초래할 뿐만 아니라 AI 시스템이 왜 그런 행동을 했는지 이해하기 어렵게 하면서 이를 관리하는 일 자체를 복잡하게 만든다. 그렇다면 개발자들은 이 문제를 어떻게 해결할 수 있을까?

첫째, 기억 시스템에는 기억이 어떤 목적으로 접근, 사용될 수 있는지 통제할 구조가 필요하다. 이미 일부 초기 시도는 시작됐다. 앤트로픽의 클로드는 서로 다른 ‘프로젝트’마다 별도의 기억 공간을 두고 있으며, 오픈AI는 챗GPT 헬스를 통해 공유된 정보가 다른 대화와는 분리돼 저장된다고 밝힌 바 있다. 이는 의미 있는 출발이지만 아직은 지나치게 단순한 수준에 머물러 있다. 최소한 시스템은 개별 기억(예: 사용자가 초콜릿을 좋아하고 GLP-1에 대해 질문했다는 사실), 그와 연관된 기억(예: 사용자가 당뇨를 관리하고 있어 초콜릿을 피한다는 점), 그리고 기억의 범주(직업 관련, 건강 관련 등)를 구분할 수 있어야 한다. 나아가 특정 유형의 기억에는 사용 제한을 걸고, 특히 의료 상태나 평등보호의 대상이 되는 특성과 같이 민감한 정보와 관련된 기억에는 명확한 접근 및 사용 기준을 적용해야 한다. 이런 정보는 더 엄격한 규제 대상이 될 가능성이 크기 때문이다.

이처럼 기억을 분리해야 한다는 요구는 AI 시스템의 설계 방식 자체에 직접적인 영향을 미친다. 기억이 어디에서 왔는지, 언제 생성됐는지, 어떤 맥락에서 만들어졌는지 등을 추적할 수 있어야 하며 특정 기억이 언제, 어떤 방식으로 에이전트의 행동에 영향을 미쳤는지도 확인할 수 있어야 하기 때문이다. 이러한 ‘모델 설명 가능성(model explainability)’은 가까운 미래의 과제로 거론되지만, 현재의 구현 방식은 모델의 작동 방식을 정확히 보여주기보다는 그럴듯한 설명을 덧붙이는 수준에 머무는 경우가 많아 오히려 사용자를 혼란스럽게 하거나 잘못된 인상을 줄 위험도 있다. 특히 기억을 모델의 가중치에 직접 내장하는 방식은 문제를 더욱 악화시킨다. 이 방식을 활용하면 더 개인화되고 맥락을 잘 반영한 결과를 얻을 수 있지만, 어떤 기억이 어떤 행동에 영향을 미쳤는지를 따로 분리해 설명하기는 거의 불가능하다. 반면 기억을 구조화된 데이터베이스로 관리하면 기억을 분리하고 추적하며 설명하는 일이 훨씬 수월해진다. 그렇기 때문에 연구가 충분히 진전되기 전까지는 개발자들이 이러한 단순한 구조의 시스템을 선택해야 할 수도 있다.

둘째, 사용자는 자신의 어떤 정보가 기억되고 있는지 확인하고, 이를 수정하거나 삭제할 수 있어야 한다. 이를 위한 인터페이스는 투명하고 이해하기 쉬워야 하며, 시스템이 저장한 기억을 사용자가 정확히 해석할 수 있는 형태로 보여줘야 한다. 지금까지 기술 플랫폼은 복잡한 설정 메뉴나 법률 용어로 가득 찬 개인정보 처리방침을 통해 사용자에게 매우 제한적인 통제만 허용해 왔다. 그러나 자연어 인터페이스를 도입하면 어떤 정보가 저장되고 있고 이를 어떻게 관리할 수 있는지 설명하는 측면에서 새로운 가능성이 열릴 수 있다. 다만 그 전에 기억 구조가 먼저 갖춰져야 한다. 구조가 없다면 어떤 모델도 기억의 상태를 명확하게 설명할 수 없기 때문이다. 실제로 그록3(Grok 3)의 시스템 프롬프트에는 사용자에게 “기억을 수정했거나, 잊었거나, 저장하지 않을 것이라고 절대 확언하지 말라”는 지침이 포함돼 있다. 이는 그런 약속이 실제로 지켜질 것이라 확신할 수 없기 때문으로 보인다.

중요한 점은 사용자에게 제공되는 통제 수단만으로는 개인정보 보호를 충분히 보장할 수 없고 AI 개인화로 인한 모든 피해를 막을 수도 없다는 사실이다. 개인정보 보호에 관한 책임은 AI 제공자가 져야 하며, 이들은 강력한 기본 설정, 기억 생성과 사용에 대한 명확한 기준, 그리고 기기 내 처리, 목적 제한, 맥락적 제약과 같은 기술적 안전장치를 마련해야 한다. 시스템 차원의 보호가 없다면 사용자는 AI가 무엇을 기억하고 무엇을 잊을지에 대해 지나치게 복잡한 선택을 강요받게 된다. 게다가 그 선택이 충분하지 않아 피해가 발생할 가능성도 있다. 개발자들은 견고한 안전장치가 마련되기 전까지 기억 시스템에서의 데이터 수집을 최소화하고 사회적 규범과 기대 변화에 맞춰 유연하게 진화할 수 있는 기억 구조를 설계해야 한다.

셋째, AI 개발자들은 성능뿐 아니라 실제 환경에서 발생하는 위험과 피해까지 파악할 수 있는 평가 시스템의 토대를 마련해야 한다. 개발자들은 더 개인화된 서비스에 대한 수요를 입증해야 하는 경제적 이해관계가 있기 때문에 이러한 테스트는 독립 연구자들이 수행하는 것이 바람직하다. 그러나 연구자들이 위험의 실체를 이해하고 해결책을 제시하려면 일정 수준의 데이터 접근이 필요하다. 연구 생태계를 개선하기 위해 개발자들은 자동화된 측정 인프라에 투자하고, 자체적인 내부 테스트를 구축하며, 기억 기능이 활성화된 현실적인 조건에서 개인정보를 보호하면서도 시스템 행동을 모니터링하고 검증할 수 있는 테스트 방식을 도입해야 한다.

인간의 경험을 떠올리게 하는 ‘기억’이라는 기술 용어는 스프레드시트 속 무미건조한 데이터조차도 AI 도구를 만드는 사람들이 책임감을 가지고 신중하게 다뤄야 할 대상임을 분명히 드러낸다. 실제로, 정보를 한데 모을 것인지 분리할 것인지, 기억을 이해 가능한 형태로 관리할 것인지 아니면 불투명하게 쌓아둘 것인지, 책임 있는 기본값을 우선할 것인지 최대한의 편의성을 추구할 것인지 등 오늘날 AI 개발자들이 내리는 선택에 따라 우리가 사용하는 시스템이 우리를 어떻게 기억할지가 결정된다. 기억과 관련된 기술적 문제는 새로운 영역처럼 보이지만, 실제로는 디지털 개인정보 보호 논의에서 이미 드러난 문제들과 같은 선상에 있다. 따라서 지금 기초를 제대로 다져야만 앞으로 무엇이 효과적인지를 배우고 더 나은 선택을 할 수 있을 것이다. 그리고 이는 우리가 과거보다 더 나은 방식으로 개인정보와 자율성을 지켜 나갈 수 있는 기반이 될 것이다.

이 글을 쓴 미란다 보겐(Miranda Bogen)은 시민 자유 옹호 단체인 민주주의와 기술 센터(Center for Democracy & Technology)의 AI 거버넌스 랩 책임자이며, 루치카 조시(Ruchika Joshi)는 민주주의와 기술 센터에서 AI 안전성과 거버넌스를 전문으로 하는 연구원이다.

The post AI가 사용자 정보를 ‘기억’하는 시대, 우리 개인정보는 안전할까? appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.