AI가 몰래 긁어가는 내 웹 정보, 이제는 이용료 청구 시대

미국 보안 기업 클라우드플레어가 웹사이트 소유자가 AI 기업의 무단 접근 및 정보 수집(크롤링)에 대해 요금을 부과할 수 있도록 하는 ‘크롤링당 과금(pay-per-crawl)’ 시스템을 도입할 예정이다.

미국 인터넷 인프라 기업 클라우드플레어(Cloudflare)가 AI 기업들의 소위 ‘크롤링(crawling)’이라 불리는 자동 데이터 수집을 막기 위해 강력한 조치를 꺼내 들었다.

클라우드플레어는 7월 1일 자사에서 호스팅하는 웹사이트에 접근하는 AI 봇을 기본적으로 차단할 것이라고 발표했다. 관련해 고객들에게 상황에 따라 AI 봇의 접근을 수동으로 허용하거나 차단할 수 있는 기능을 제공하고, AI 봇이 웹사이트 콘텐츠를 수집할 때마다 고객이 보상받을 수 있는 ‘크롤링 당 과금(pay-per-crawl)’ 서비스를 도입하겠다는 것이다.

클라우드플레어에서 차단하고자 하는 AI 봇은 인터넷을 돌아다니며 각 웹사이트의 정보를 자동으로 수집하고 분류하는 알고리즘인 웹 크롤러(web crawler)의 일종이다. 과거에는 이러한 웹 크롤러가 주로 검색 엔진을 위한 데이터 수집에 사용됐지만, 현재의 개발자들은 AI 시스템을 구축하고 운영하는 데 필요한 데이터 수집에 이를 활용하고 있다.

그러나 AI 시스템은 검색 엔진처럼 수익화 기회를 제공하거나 정보에 대한 저작권을 제공하지 않는다. AI 모델은 웹에 존재하는 방대한 데이터를 가져와 답변을 생성하지만, 데이터 출처는 제대로 밝히지 않는 경우가 많기 때문에 데이터 창작자는 이를 통해 수익을 창출하기 어렵다. AI 생성 답변을 제공하는 검색 엔진은 원본 출처 링크를 제공하기도 하지만, AI의 답변을 확인한 사용자들은 다른 사이트에 대한 관심이 떨어질 수 있고 나중에는 검색된 웹사이트들을 클릭할 필요성을 아예 느끼지 못하게 될 수도 있다.

클라우드플레어의 윌 앨런(Will Allen) AI 개인정보보호·제어·미디어 제품 담당 책임자는 MIT 테크놀로지 리뷰에 보낸 이메일에서 “기존에는 검색 엔진에서 웹사이트의 콘텐츠를 수집해 색인을 생성한 후 특정 검색어에 맞는 링크를 표시하면 사용자가 검색 결과를 보고 웹사이트에 방문함으로써 검색 엔진과 웹사이트 모두 이익을 얻을 수 있었다”며 “그러나 이러한 상황이 근본적으로 바뀌고 있다”고 설명했다.

일반적으로 콘텐츠 창작자와 발행인은 콘텐츠가 어떤 식으로 사용되고 있고 그에 대한 보상을 어떻게 받을 수 있는지에 대해 결정하고 싶어 한다. 클라우드플레어는 이번에 발표한 시스템을 통해 고객들이 AI 생애주기의 각 단계(특히 학습, 미세조정, 추론)에 대한 크롤링을 허용하거나 금지할 수 있고, 검증된 특정 웹 크롤러들을 ‘화이트리스트’, 즉 콘텐츠 수집 허용 목록에 추가할 수 있다고 밝혔다. 고객들은 또한 AI 봇의 웹사이트 크롤링에 대해 비용을 설정할 수 있다.

클라우드플레어의 보도자료에 따르면 AP 통신과 타임(Time) 같은 미디어 기업과 쿼라(Quora)와 스택 오버플로(Stack Overflow) 같은 포럼들에서는 이번 조치에 대해 지지를 표명했다. 스택 오버플로의 프라샨트 찬드라세카르(Prashanth Chandrasekar) CEO는 해당 보도자료에서 “대형언어모델(LLM)을 지원하는 커뮤니티 플랫폼들은 보상을 받아야 하고, 그 보상금을 자사 플랫폼에 재투자할 수 있어야 한다”고 언급했다.

웹 크롤러는 방문하는 웹사이트의 지침(robots.txt 파일을 통해 제공)을 준수하여 크롤링 허용 여부를 판단해야 하지만, 일부 AI 기업들은 이러한 지침을 무시한다는 비판을 받아왔다.

클라우드플레어는 AI 웹 크롤러가 웹사이트에 방문하면 소속과 목적을 밝힐 수 있게 하는 봇 검증 시스템을 이미 보유하고 있다. 클라우드플레어는 이 시스템이 AI 기업과 웹사이트 소유자 간의 선의에 기반한 협상을 촉진하는 데 도움이 되기를 바라고 있다. 정직하지 않은 웹 크롤러에 대해서는 봇들의 서비스 거부 공격(denial-of-service (DoS) attack)에 대응한 경험을 바탕으로 활동을 차단할 계획이다.

앨런 담당자는 “최신 콘텐츠를 찾아 인터넷을 돌아다니는 웹 크롤러도 AI 봇의 일종”이라며 “따라서 악의적인 봇의 특성에 대한 우리의 연구가 웹 크롤러의 패턴을 이해하는 데도 도움을 줄 것”이라고 설명했다.

클라우드플레어는 원치 않는 웹 크롤러를 차단하기 위한 다른 방법들도 이미 개발하고 있다. 그중 하나는 웹사이트가 AI로 생성한 가짜 웹 페이지로 웹 크롤러들을 유도하는 방법이다. 클라우드플레어는 이 방식도 매우 악의적인 웹 크롤러에 적용할 예정이지만, 이번 새로운 서비스를 통해 AI 기업과 콘텐츠 제작자 간에 더 나은 관계를 구축할 수 있기를 바란다고 밝혔다.

일부에서는 AI 웹 크롤러를 기본적으로 금지하면 연구와 같은 비영리적인 용도에도 방해가 될 수 있다고 경고했다. 웹 크롤러는 AI 시스템과 검색 엔진을 위한 데이터 수집뿐만 아니라 웹 아카이빙 서비스 등에도 사용된다.

MIT 미디어랩에서 데이터 출처에 관해 연구하는 박사 과정 학생인 셰인 롱프레(Shayne Longpre) 연구원은 “모든 AI 시스템이 웹사이트 소유자에게 해가 되는 것은 아니며, 모든 AI 시스템이 상업적인 것도 아니다”라고 밝혔다. 그러면서 “개인적인 사용과 연구 목적의 웹 크롤러까지 모두 차단되어서는 안 된다”고 강조했다.

클라우드플레어는 웹사이트 소유자가 AI 기업과 더 지속가능한 계약을 맺을 수 있도록 지원함으로써 인터넷 개방성을 보호하고자 한다. 앨런 책임자는 “웹 크롤러의 소속과 의도를 확인하게 되면 웹사이트 소유자는 크롤러들을 더 세세하게 통제할 수 있고, 그렇게 되면 소유자의 의지에 따라 웹사이트를 더 개방적으로 유지할 수도 있다”고 밝혔다.

The post AI가 몰래 긁어가는 내 웹 정보, 이제는 이용료 청구 시대 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.