AI 훈련 데이터서 신분증·이력서 등 개인정보 무더기 발견

생성형 AI 모델 훈련에 사용되는 세계 최대 규모의 오픈소스 데이터세트 중 하나에서 개인 식별이 가능한 기밀 정보가 다수 발견되어 AI 모델 개발 과정에서 개인정보 침해 가능성에 대한 경각심이 커지고 있다.

여권, 신용카드, 출생증명서 등 개인을 식별할 수 있는 정보가 포함된 문서 이미지 수백만 장이 세계 최대 규모의 오픈소스 AI 학습 데이터세트 중 하나인 ‘데이터컴 커먼풀(DataComp CommonPool, 이하 커먼풀)’에 포함되어 있을 가능성이 높다는 새로운 연구 결과가 나왔다.

카네기멜런대학교 연구진이 대규모 AI 이미지 생성 모델 훈련에 사용되는 오픈소스 이미지-텍스트 페어(image-text pair) 데이터세트인 커먼풀 일부를 분석한 결과, 신원 식별이 가능한 얼굴을 포함해 PII(개인 식별 정보)가 담긴 수천 장의 이미지가 발견됐다. 연구진은 전체 데이터의 단 0.1%만 분석했음에도 이 같은 결과가 나타난 점에 주목하며, 전체 데이터세트에는 얼굴과 신분증 등 개인정보가 담긴 이미지가 수백만 장에 이를 것으로 추정했다. 해당 연구는 이달 초 논문 공유 플랫폼 아카이브(arXiv)에 게재됐다.

연구 공동 저자인 AI 윤리학 박사후연구원 윌리엄 애그뉴(William Agnew)는 “인터넷에 공개된 정보는 무엇이든 수집될 가능성이 있으며, 실제로 그렇게 되고 있다고 생각해야 한다”고 지적했다.

연구진은 신용카드, 운전면허증, 여권, 출생증명서 등 실존 인물의 신원 관련 문서 수천 건을 확인했으며, 이외에도 이력서와 자기소개서 등 입사 지원 서류 800건 이상을 찾아냈다. 나아가 링크드인 등 커리어 플랫폼이나 기타 웹 검색을 통해 해당 문서들이 실제 인물과 연결되어 있다는 점도 직접 확인했다. 단, 이미지 해상도의 한계나 시간 부족으로 더 많은 문서에 대한 검증은 진행하지 못했다고 덧붙였다.

특히 일부 이력서에는 장애 여부, 신원 조회 결과, 자녀의 생년월일과 출생지, 인종 등 민감한 정보가 포함돼 있었고, 온라인 활동이 활발한 인물의 경우에는 본인의 연락처, 정부 발급 식별번호, 사회인구통계학적 정보, 얼굴 사진, 집 주소는 물론 제3자의 연락처까지 노출된 사례도 있었다.

커먼풀의 소규모 데이터세트에서 발견된 신원 관련 문서에는 신용카드, 사회보장번호, 운전면허증 등이 포함돼 있다. 각 샘플에는 상단에 URL 유형, 중앙에 이미지, 하단에 따옴표로 표시된 캡션이 함께 제시돼 있다. 모든 개인정보는 삭제됐으며, 직접적인 인용을 피하기 위해 문구는 일부 수정되었다. 이미지는 얼굴이 식별되지 않도록 편집되어 얼굴이 존재한다는 사실만을 보여준다. (COURTESY OF THE RESEARCHERS)

2023년 출시된 커먼풀은 총 128억 개의 데이터 샘플로 구성돼 있으며, 당시 공개된 이미지-텍스트 페어 데이터세트 중 최대 규모를 자랑했다. 이처럼 이미지와 텍스트가 짝지어진 페어 데이터는 일반적으로 텍스트를 이미지로 변환하는 생성형 AI 모델의 학습에 사용된다. 커먼풀 제작진은 이 데이터세트가 학술 연구를 위한 것이라고 밝혔지만, 라이선스상 상업적 활용도 가능한 구조다.

커먼풀은 스테이블 디퓨전(Stable Diffusion)과 미드저니(Midjourney) 등 생성형 AI 모델 학습에 사용된 LAION-5B 데이터세트의 후속 버전으로, 동일한 출처의 데이터를 기반으로 만들어졌다. 해당 데이터는 비영리단체 커먼크롤(Common Crawl)이 2014년부터 2022년까지 웹에서 수집한 것이다.

상업용 모델은 학습에 사용된 데이터세트 공개하지 않는 경우가 많지만, 커먼풀과 LAION-5B가 동일한 데이터를 바탕으로 제작됐다는 점에서 두 데이터세트는 상당히 유사하며, 동일한 개인 식별 정보가 LAION-5B는 물론 커먼풀을 기반으로 학습된 다양한 후속 모델에도 포함됐을 가능성이 크다. 커먼풀 제작진은 이에 대한 이메일 질의에 답하지 않았다.

이번 논문의 제1저자이자 워싱턴대학교 컴퓨터공학 박사과정에 재학 중인 레이첼 홍(Rachel Hong)은 “지난 2년 동안 커먼풀은 200만 회 이상 다운로드됐다”며 “이 데이터로 학습된 후속 모델이 매우 많을 것으로 보이며, 이로 인한 개인정보 침해 위험 역시 반복될 수 있다”고 경고했다.

‘선의’의 기술적 한계

트리니티칼리지 더블린(Trinity College Dublin) 산하 AI 책임성 연구소(AI Accountability Lab)를 이끄는 인지과학자이자 기술윤리학자인 아베바 비르하네(Abeba Birhane)는 “웹에서 대규모 데이터를 수집하는 경우 원칙적으로 포함돼선 안 되는 콘텐츠가 반드시 끼어들게 마련”이라며 “여기에는 개인 식별 정보는 물론 아동 성 착취 이미지나 혐오 발언까지 포함되며, 이는 직접 연구했던 LAION-5B 데이터세트에서도 확인된 바 있다”고 밝혔다.

실제로 커먼풀 제작진도 데이터세트에 개인 식별 정보가 포함될 가능성이 높다는 점을 인지하고 있었으며, 얼굴을 자동으로 탐지하고 블러 처리하는 등의 일부 개인정보 보호 조치를 취하기도 했다.

그러나 레이첼 홍의 연구팀은 제한된 샘플 데이터에서 알고리즘이 인식하지 못한 얼굴 이미지 800건 이상을 직접 확인했으며, 전체 데이터세트를 기준으로 약 1억 200만 건의 얼굴 이미지가 필터링되지 않았을 것으로 추산했다. 반면 이메일 주소나 사회보장번호(Social Security Number)처럼 일정한 패턴을 가진 개인 정보 문자열을 탐지하는 필터는 적용되지 않았다.

이에 대해 애그뉴는 “이 필터링은 고도로 정교해야 하기 때문에 실제로 잘 해내기란 매우 어렵다”며 “이를 제대로 구현하려면 고성능의 개인정보 탐지 및 제거 기술이 필요한데, 커먼풀 제작진이 해당 기술을 보유하고 있는지는 아직 공개된 바 없다”고 지적했다.

커먼풀의 소규모 데이터세트에서 발견된 이력서와 개인 정보 관련 문서의 예시. 각 샘플에는 상단에 URL 유형, 중앙에 이미지, 하단에 따옴표로 표시된 캡션이 함께 제시돼 있다. 모든 개인정보는 삭제됐으며, 직접적인 인용을 피하기 위해 문구는 일부 수정되었다. 이미지는 얼굴이 식별되지 않도록 편집되어 얼굴이 존재한다는 사실만을 보여준다. (COURTESY OF THE RESEARCHERS)

얼굴을 블러 처리하는 방식만으로는 개인정보 침해 문제를 모두 해결할 수 없다. 해당 블러 필터는 자동으로 적용되지만, 선택적으로 제거가 가능하다는 한계가 있다. 또한 사진과 함께 제공되는 캡션이나 메타데이터에는 이름이나 정확한 위치 등 더 많은 개인정보가 담겨 있는 경우가 많다.

또 다른 보호 조치로는 커먼풀을 호스팅하고 AI 학습 데이터세트를 배포하는 플랫폼 허깅페이스(Hugging Face)가 제공하는 기능이 있다. 이 플랫폼은 사용자가 자신의 정보를 검색해 삭제 요청을 할 수 있는 도구와 연동돼 있다. 그러나 연구진은 논문에서 이 도구가 효과를 발휘하려면 “우선 사용자가 자신의 정보가 데이터에 포함돼 있다는 사실을 인지해야 한다”고 지적했다.

허깅페이스의 플로랑 도댕(Florent Daudens)은 “AI 생태계 전반에서 데이터 당사자의 프라이버시를 최대한 보호하기 위해서는 다층적인 접근이 필요하며, 이는 해당 도구 하나만으로 해결될 수 있는 문제가 아니라”라며 “플랫폼 사용자들과 협력해 보다 프라이버시 중심적인 방향으로 나아가기 위해 노력하고 있다”고 설명했다.

하지만 설령 특정 데이터세트에서 자신의 정보를 삭제했다고 하더라도, 그것만으로는 충분하지 않다는 지적도 나온다. 샌프란시스코대학교 법학대학원의 티퍼니 리(Tiffany Li) 부교수는 “누군가 자신의 데이터가 학습에 사용됐다는 사실을 알아내 삭제를 요구하더라도, 법적으로 그 삭제가 무엇을 의미하는지는 여전히 모호하다”고 말했다. 그는 “기관이 학습 데이터세트에서만 해당 정보를 삭제하고, 이미 학습된 모델에서 해당 데이터를 제거하거나 재학습을 하지 않는다면, 개인정보 침해 문제는 해결됐다고 볼 수 없다”고 덧붙였다.

애그뉴는 “웹에서 데이터를 수집하면 그 안에는 반드시 개인 정보가 포함된다”고 말했다. 그는 이어 “아무리 필터링을 한다고 해도 데이터 규모 자체가 워낙 방대하므로 완전한 제거는 사실상 불가능하다”며 “이는 우리 머신러닝 연구자 전체가 진지하게 고민해야 할 문제”라고 강조했다.

‘동의’에 대한 재정의

커먼풀은 2014년부터 2022년 사이에 웹에서 수집된 데이터를 기반으로 구축됐다. 이는 상당수의 이미지가 챗GPT가 등장하기 전인 2020년 이전에 수집됐을 가능성이 크다는 의미다. 이론적으로 누군가는 자신의 정보를 웹상에 공개하는 데 동의했을 수는 있지만, 아직 존재하지도 않았던 대규모 AI 모델의 학습용 데이터로 활용되는 데까지 동의했을 가능성은 사실상 없다.

또한 웹 데이터 수집가들이 서로의 데이터를 긁어오는 경우가 많기 때문에 한 사용자가 특정 사이트에 업로드한 이미지는 다양한 이미지 저장소로 확산되기 쉽다. 애그뉴는 “어떤 사람이 특정 이미지를 인터넷에 올린 뒤 1년쯤 지나 삭제하더라도, 실제로는 아무런 효과도 없는 경우가 많다”고 설명했다.

연구진은 아동의 출생증명서, 여권, 건강 상태 등 민감한 정보가 담긴 이미지도 다수 확인했다. 이들 대부분은 제한된 목적에 한해 공유된 것으로 보이는 데이터였다.

미국소비자연맹(CFf)에서 AI 및 개인정보 보호를 담당하는 벤 윈터스(Ben Winters)는 “이번 사례는 공개 데이터를 기반으로 한 AI 시스템이 안고 있는 ‘원죄’를 명확히 보여준다”며 “이는 착취적이며, 사람들을 오도하고, 평범한 인터넷 이용자들에게 실질적인 위험을 초래한다”고 지적했다. 그는 이어 “누구도 자신이 올린 정보가 이미지 생성기를 만들기 위한 수단으로 전부 수집될 것이라고는 상상하지 못했을 것”이라고 덧붙였다.

적절한 제도 마련의 필요성

이번 논문은 머신러닝 연구 공동체가 관행처럼 이어온 무분별한 웹 데이터 수집 방식에 대해 근본적인 재검토가 필요하다고 지적한다. 동시에 대규모 머신러닝 데이터세트에 개인 식별 정보가 포함돼 있다는 사실은 현행 개인정보 보호법을 위반할 소지가 있으며, 현재의 법체계로는 이 같은 사안을 충분히 규율하기 어렵다는 점도 함께 짚고 있다.

네덜란드 전 국회의원이자 현재 스탠퍼드대학교 사이버정책센터(Stanford Cyber Policy Center) 펠로우로 활동 중인 기술 정책 전문가 마리에체 샤케(Marietje Schaake)는 “유럽에는 일반정보보호규정(GDPR)이 있고, 미국 캘리포니아에는 소비자 개인정보 보호법(CCPA)이 있지만, 미국 전체를 아우르는 연방 차원의 데이터 보호법은 아직 없다”며 “이로 인해 미국 내에서도 거주 지역에 따라 개인정보 보호 수준에 큰 차이가 생긴다”고 설명했다.

게다가 이러한 개인정보 보호법은 일정 규모 이상의 기업이나 특정 요건을 충족하는 기관에만 적용되는 경우가 많아 커먼풀을 만들고 관리한 개인 연구자나 학계 연구진에게는 적용되지 않을 가능성도 있다.

캘리포니아의 CCPA처럼 개인정보 보호를 명시한 주(州) 차원의 법률조차도 ‘공개 정보(publicly available)’에 대해서는 예외 조항을 두고 있다. 그동안 머신러닝 연구자들은 ‘인터넷에 공개된 정보는 공공 정보로서 더 이상 개인정보가 아니다’라는 인식 아래 데이터를 수집해 왔다. 그러나 이번 연구에 참여한 레이첼 홍과 윌리엄 애그뉴 등은 이번 연구가 그 전제를 뒤흔드는 계기가 되기를 기대하고 있다.

홍은 “우리가 확인한 이른바 ‘공개 정보’라는 범주에는 많은 이들이 사적인 것으로 여기는 내용들이 포함돼 있다”며 “이력서, 사진, 신용카드 번호, 각종 신분증, 어릴 적 실린 뉴스 기사, 가족 블로그 같은 것들까지 포함된다”고 설명했다. 그는 이어 “이런 정보들이 어디서든 어떤 방식으로든 사용되길 바라는 사람은 거의 없을 것”이라고 덧붙였다.

샤케는 “이번 연구가 경각심을 불러일으키고 실질적인 변화를 이끌어내는 계기가 되기를 바란다”고 강조했다.

The post AI 훈련 데이터서 신분증·이력서 등 개인정보 무더기 발견 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.