구글 최신 영상 생성 모델, 엉터리 자막 문제로 구설수

구글의 최신 영상 생성 AI 모델이 출시된 지 한 달이 넘었지만 사용자 요청과 무관하게 영상에 불필요한 자막이 추가되는 오류가 계속되고 있다.

구글이 5월 말 새로운 영상 생성 AI 모델 비오 3(Veo 3)를 출시하자 창작자들은 앞다퉈 그 성능을 시험하기 시작했다. 이전 모델 출시 후 불과 몇 달 만에 공개된 비오 3는 영상 생성 모델 중 최초로 음향과 대사 생성 기능을 제공하기 때문이다.

이를 활용해 만든 광고, ASMR 영상, 상상에 기반한 영화 예고편, 유쾌한 거리 인터뷰 등 다양한 형태의 현실감 넘치는 8초짜리 영상들이 순식간에 온라인에 확산됐다(구글의 비오  3가 현재 8초짜리 영상까지 생성할 수 있다).

아카데미상 후보에 올랐던 대런 애러노프스키(Darren Aronofsky) 감독은 비오 3를 이용해 단편 영화 <앤세스트라(Ancestra)>를 제작하기도 했다. 데미스 허사비스(Demis Hassabis) 구글 딥마인드 CEO는 기자간담회에서 이러한 성과를 “무성 영화 시대를 벗어나는 발전”에 비유했다.

하지만 사용자들은 이 모델에 예상치 못한 문제가 있다는 사실을 곧 알게 되었다. 비오 3가 대사가 포함된 영상을 생성할 때 종종 의미 없는 엉터리 자막을 추가하는 문제다. 이런 오류는 캡션이나 자막을 넣지 말라는 프롬프트를 입력한 경우에도 마찬가지로 나타난다.

이 불필요한 자막을 없애기는 간단하지 않을뿐더러 비용도 많이 든다. 사용자들은 울며 겨자 먹기로 (추가 비용을 내고) 영상을 다시 생성하거나 외부 자막 제거 도구를 사용하거나 자막이 포함된 부분을 잘라낼 수밖에 없었다.

조시 우드워드(Josh Woodward) 구글 랩스 및 제미나이 담당 부사장은 지난 6월 9일 엑스(X)에 구글이 엉터리 자막 문제를 줄이기 위한 수정 방안을 마련했다고 밝혔다. 하지만 한 달이 넘은 지금까지도 구글 랩스의 디스코드(Discord) 채널에는 사용자들이 불만이 끊이지 않고 있다. 이는 주요 AI 모델의 오류를 수정하는 일이 얼마나 어려운지를 단적으로 보여준다.

비오 3는 이전 모델들과 마찬가지로 월 249.99달러(약 34만 8,000원) 이상의 요금제를 사용하는 구글 유료 구독 서비스 이용자에게만 제공된다. 사용자가 원하는 장면을 묘사하는 텍스트 프롬프트를 구글의 AI 영상 제작 도구인 플로우(Flow), 제미나이(Gemini) 등과 같은 구글 플랫폼에 입력하면 8초짜리 영상이 생성된다. 비오 3로 영상 1개를 생성하려면 최소 20개의 AI 크레딧이 필요하며 크레딧은 2,500개당 25달러(약 34,800원)를 지불하고 추가로 충전할 수 있다.

광고 크리에이티브 디렉터인 모나 바이스(Mona Weiss)는 무작위로 삽입되는 자막을 제거하기 위해 장면을 다시 생성하다 보니 비용이 점점 더 많이 든다고 말했다. 그녀는 “대사를 포함한 장면을 생성하면 결과물의 최대 40%에 엉터리 자막이 포함되어 사용할 수 없다”며 “원하는 장면을 얻기 위해 계속 돈을 쓰고 있지만 결국 쓸 수 없는 결과물만 남는다”고 전했다.

바이스는 낭비된 크레딧을 환불받기 위해 디스코드 채널을 통해 구글 랩스에 문제를 제기했지만 구글 랩스 측은 그녀에게 구글의 공식 고객지원팀에 문의하라고 안내했다. 고객지원팀은 비오 3 사용 요금은 환불해 줄 수 있지만 이미 사용한 크레딧은 환불이 어렵다고 답했다. 요금을 환불받으면 비오 모델 자체를 사용할 수 없게 되기 때문에 바이스는 결국 제안을 거절했다. 구글 랩스의 디스코드 지원팀은 자막이 음성에 반응해 자동으로 삽입될 수 있다고 설명하며 해당 문제를 인지하고 있고 해결 중이라고 밝혔다.

비오 3는 왜 계속 불필요한 자막을 삽입할까? 또한 이 문제를 해결하기가 이렇게 어려운 이유는 무엇일까? 이는 모델이 학습한 데이터와 관련이 있을 가능성이 높다.

구글이 관련 정보를 공개하지는 않았지만 학습 데이터에는 유튜브 영상, 브이로그나 게임 채널의 영상, 틱톡 영상 편집본 등이 포함되어 있을 가능성이 크며 이들 대부분에는 자막이 포함되어 있다. 매사추세츠주 클라크 대학교에서 영상 공유 플랫폼과 AI를 연구하는 슈오 니우(Shuo Niu) 조교수는 “이 자막들은 별도의 텍스트 트랙으로 분리되어 있지 않고 영상의 일부로 포함되어 있기 때문에 모델 학습에 사용하기 전에 제거하기가 어렵다”고 설명했다.

그는 “텍스트-영상 변환 모델은 강화 학습을 통해 인간이 만든 영상과 유사한 콘텐츠를 생성하도록 훈련되며, 자막이 포함된 영상을 학습한 경우 모델이 자막을 추가하는 것이 유사성을 높인다고 ‘학습’할 수 있다”고 말했다.

구글 대변인은 “구글은 텍스트, 자연스러운 음성, 완벽히 동기화된 오디오를 통해 영상 생성 품질을 지속적으로 개선하고 있다”며 “문제가 발견되면 프롬프트를 다시 시도하고 좋아요/싫어요 아이콘을 통해 피드백을 남겨 달라”고 당부했다.

한편 AI 시스템을 연구하는 튜힌 차크라바티(Tuhin Chakrabarty) 스토니브룩 대학교 조교수는 비오 3가 “자막을 넣지 말라”는 지시를 따르지 않는 이유에 대해 생성형 AI 모델에게 특정 작업을 하지 말라고 지시하는 ‘부정 프롬프트’는 일반적으로 긍정 프롬프트보다 이행률이 낮기 때문이라고 설명했다.

이어서 그는 “문제를 해결하려면 구글이 비오 3가 학습한 모든 영상의 각 장면을 일일이 검토해 자막이 있는 장면을 삭제하거나 다시 라벨링한 뒤 모델을 재학습시켜야 하는데 이 작업에는 몇 주가 걸릴 것”이라고 덧붙였다.

다큐멘터리 제작자이자 MIT 오픈 다큐멘터리 랩(MIT Open Documentary Lab)의 예술감독인 카테리나 시젝(Katerina Cizek)은 이번 사례를 통해 충분한 준비 없이 제품을 출시하는 구글의 성급한 태도가 드러났다고 지적했다.

그녀는 “구글은 성과가 절실했다”며 “입 모양과 음성이 일치하는 도구를 가장 먼저 출시하는 것이 더 중요했기에 자막 문제는 뒷전이었다”고 분석했다.