새로운 영상 생성 시대 연 AI 기술, 그 작동 원리를 파헤치다

AI 영상 생성 도구가 대중화되면서 누구나 실제로 촬영한 것 같은 영상을 손쉽게 만들 수 있는 시대가 열렸다. 이제 그 원리가 어떻게 작동하는지 살펴볼 시점이다.

지난 9개월 동안 동영상 생성 분야는 그야말로 격변의 한 해를 보냈다. 오픈AI가 동영상 생성 AI ‘소라(Sora)’를 공개했고, 구글 딥마인드는 ‘비오3(Veo 3)’를, 생성형 AI 스타트업 런웨이는 ‘젠-4(Gen-4)’를 출시했다. 이들 모델은 실제 촬영 영상이나 CGI 애니메이션과 거의 구분이 어려울 만큼 정교한 클립을 만들어낸다. 올해 넷플릭스는 드라마 ‘영원한 항해자 에테르나우타(The Eternaut)’에 AI 시각효과를 도입하며, 대중 시장을 겨냥한 TV 작품에 동영상 생성 기술을 처음 적용한 사례로 기록되기도 했다.

물론 기업들이 내놓는 데모 영상은 가장 완성도 높은 결과물만을 뽑아내 보여주는 일종의 ‘체리 피킹(cherry-picking)’에 가깝다. 그러나 상황은 달라지고 있다. 유료 구독자라면 챗GPT와 제미나이 앱을 통해 소라와 비오3를 바로 사용할 수 있어, 이제는 아마추어 영상 제작자조차도 손쉽게 눈길을 끄는 결과물을 만들어낼 수 있는 시대가 열린 것이다.

부작용도 만만치 않다. 창작자들은 AI가 양산하는 저품질 콘텐츠와 경쟁해야 하고, 소셜미디어에는 가짜 뉴스를 담은 클립들이 쏟아지고 있다. 여기에 동영상 생성이 텍스트나 이미지에 비해 훨씬 많은 에너지를 소모한다는 점도 문제로 지적된다.

AI 생성 영상이 일상 곳곳을 채우고 있는 지금, 이 기술을 가능하게 하는 핵심 원리를 짚어볼 필요가 있다.

영상은 어떻게 생성될까?

일반 사용자의 관점에서 보자. 요즘은 프로 제작자들이 동영상 생성 AI 모델을 워크플로에 넣어 쓸 수 있는 고급 툴이 여럿 나와 있다. 하지만 대부분의 사용자는 앱이나 웹사이트로 이 기술을 접한다. “헤이 제미나이, 유니콘이 스파게티를 먹는 영상을 만들어줘. 이번에는 뿔이 로켓처럼 날아오르게 해줘” 같은 식으로 요청하는 방식이다. 결과물이 한 번에 마음에 들 때도 있지만, 원하는 장면을 얻으려면 보통 여러 번 다시 시도해야 한다.

그렇다면 내부에서는 무슨 일이 벌어질까. 왜 결과가 들쭉날쭉하고 왜 그렇게 많은 에너지를 잡아먹는 걸까. 최신의 동영상 생성 모델은 ‘잠재 확산 트랜스포머(latent diffusion transformers)’라는 방식으로 작동한다. 낯선 용어처럼 들리겠지만 차근차근 풀어보면 쉽게 이해할 수 있다. 우선 ‘확산(diffusion)’부터 살펴보자.

확산 모델이란 무엇일까?

이미지를 하나 떠올려 보자. 거기에 무작위로 픽셀을 흩뿌린다. 그다음 또다시 픽셀을 흩뿌리고, 또 반복한다. 이 과정을 여러 차례 거치면 처음의 이미지는 결국 오래된 TV 화면처럼 잡음으로 가득 찬 픽셀 덩어리로 변한다.

확산 모델은 이 과정을 거꾸로 수행하도록 훈련된 신경망이다. 무작위 잡음에서 시작해 단계적으로 되돌려 이미지를 재구성하는 것이다. 훈련 과정에서 모델은 수백만 장의 이미지를 다양한 픽셀화 단계에서 학습한다. 픽셀이 더해질 때 이미지가 어떻게 바뀌는지를 반복적으로 익히고 그 변화를 되돌리는 방법까지 함께 학습하는 것이다.

그 결과 사용자가 이미지를 생성해 달라고 요청하면 확산 모델은 무작위 잡음으로 시작해 한 단계씩 복원해 나가며 최종적으로 학습 데이터와 유사한 이미지를 만들어낸다.

하지만 사용자가 원하는 건 ‘아무 이미지’가 아니다. 대개는 텍스트 프롬프트를 통해 특정 장면을 요구한다. 그래서 확산 모델은 또 다른 모델, 즉 텍스트와 이미지를 연결하도록 학습된 대형언어모델(LLM)과 짝을 이룬다. 이 모델은 확산 과정의 각 단계를 조율해 결과물이 프롬프트와 최대한 일치하도록 방향을 잡아준다.

물론 이 LLM이 텍스트와 이미지 사이의 연관성을 무작위로 만들어내는 것은 아니다. 오늘날 대부분의 텍스트 기반 이미지·영상 생성(text-to-image, text-to-video) 모델은 인터넷에서 수집된 수십억 건의 텍스트와 이미지, 혹은 텍스트와 영상 짝을 학습해 만들어졌다. 따라서 결과물은 온라인 세계의 축약판이자 그 속에 존재하는 편견이나 포르노그래피 같은 왜곡까지 고스란히 담고 있다.

확산 모델을 이미지에 적용하는 것이 가장 이해하기 쉽지만, 이 기법은 오디오와 비디오를 포함한 다양한 데이터에도 쓰일 수 있다. 영화 클립을 만들 때는 단일 이미지를 복원하는 대신 연속된 프레임, 즉 영상 전체 장면을 순차적으로 되살려내야 한다.

잠재 확산 모델이란 무엇일까?

확산 모델은 막대한 연산 자원, 즉 에너지를 필요로 한다. 이 때문에 영상 생성에 쓰이는 대부분의 모델은 ‘잠재 확산’이라는 방식을 활용한다. 이는 각 영상 프레임의 수백만 개 픽셀을 그대로 처리하는 대신, ‘잠재 공간(latent space)’이라 불리는 수학적 코드로 압축된 상태에서 작업하는 방식이다. 잠재 공간에는 데이터의 핵심 특징만 남고 불필요한 정보는 걸러진다.

원리는 인터넷 영상 스트리밍과 비슷하다. 서버에서 전송되는 영상은 압축된 형태로 빠르게 전달되고, 사용자의 컴퓨터나 TV가 이를 다시 풀어 보여준다. 잠재 확산도 마찬가지다. 무작위 잡음으로 채워진 압축 프레임이 확산 과정을 거쳐 LLM이 프롬프트와 가장 잘 맞는다고 판단한 영상 프레임으로 변환되면, 마지막 단계에서 이를 복원해 사용자가 볼 수 있는 실제 영상으로 완성한다.

잠재 확산의 과정 자체는 이미지 생성과 크게 다르지 않다. 다만 여기서 다루는 대상은 실제 픽셀 단위의 프레임이 아니라, 수학적으로 부호화한 프레임값이다. 덕분에 잠재 확산은 기존 확산 모델보다 훨씬 효율적으로 작동한다. 그렇다고 해서 영상 생성이 텍스트나 이미지 생성보다 적은 에너지를 쓰는 것은 아니다. 여전히 상상을 초월하는 수준의 연산이 필요하다.

잠재 확산 트랜스포머란 무엇일까?

퍼즐의 마지막 조각은 프레임 간 일관성을 어떻게 유지하느냐에 있다. 확산 과정을 통해 영상을 만들 때는 사물의 위치, 조명, 배경이 장면마다 달라 보이지 않도록 해야 한다. 오픈AI는 소라를 개발하면서 확산 모델에 ‘트랜스포머’라는 또 다른 모델을 결합했고, 이는 이제 생성형 영상의 표준으로 자리 잡았다.

트랜스포머는 긴 데이터 시퀀스를 처리하는 데 강점을 지닌다. 이 덕분에 오픈AI의 GPT-5나 구글 딥마인드의 제미나이 같은 LLM이 수십 문장에 걸쳐 맥락을 유지하며 자연스러운 글을 만들어낼 수 있는 것이다.

영상은 단어가 아닌 프레임으로 이루어져 있다. 오픈AI가 선택한 방식은 영상을 시공간에 따라 잘게 분할해 다루는 것이었다. 소라의 팀 브룩스(Tim Brooks) 수석 연구원은 “모든 영상 프레임을 차곡차곡 쌓아놓은 뒤 그 덩어리에서 작은 큐브를 잘라내는 것과 같다”고 설명했다.

비오 3와 미드저니(Midjourney)로 생성된 영상 일부로, 후반 작업에서 AI 영상 편집 도구 토파즈(Topaz)로 보정됐다. 출처: VaigueMan

확산 모델에 트랜스포머를 결합하면 여러 가지 이점이 생긴다. 트랜스포머는 연속된 데이터를 처리하도록 설계돼 있어 프레임을 생성하는 과정에서 장면 간의 일관성을 유지하도록 돕는다. 그 결과 사물이 갑자기 나타나거나 사라지는 문제를 줄일 수 있다.

또 영상을 잘게 나누어 처리하기 때문에 화면의 크기나 비율에도 크게 구애받지 않는다. 이로써 최신 세대의 영상 생성 모델은 스마트폰으로 촬영한 짧은 세로 영상부터 와이드스크린 영화까지 폭넓은 데이터를 학습할 수 있게 됐다. 학습 범위가 넓어진 만큼 영상 생성 기술은 불과 2년 전과 비교해 눈에 띄게 발전했으며, 이제는 사용자의 요구에 맞춰 다양한 형식의 영상을 만들어낼 수 있다.

오디오는 어떻게 구현될까?

비오 3의 가장 큰 진전은 영상을 오디오와 함께 만들어낸다는 점이다. 입 모양과 정확히 맞는 대사부터 효과음, 배경 소음까지 구현해 낸 것이다. 영상 생성 모델이 음성까지 동시에 생성한 것은 이번이 처음이다. 구글 딥마인드의 데미스 허사비스(Demis Hassabis) CEO는 올해 구글 I/O 행사에서 “우리는 이제 영상 생성의 무성영화 시대를 벗어나고 있다”고 강조했다.

핵심은 영상과 음성을 정확히 일치시켜 확산 과정에서 두 데이터를 동시에 처리할 수 있도록 만드는 것이었다. 구글 딥마인드가 내놓은 해법은 오디오와 비디오를 하나의 데이터로 압축해 확산 모델 내부에서 함께 다루는 방식이었다. 덕분에 비오 3는 영상을 생성할 때 음성과 영상을 동시에 만들어내며, 두 요소가 완벽히 동기화된다.

LLM도 확산 모델처럼 다양한 데이터를 만들어낼 수 있을까?

아직까지는 그렇지 않다. 확산 모델은 주로 이미지, 영상, 오디오를 생성하는 데 쓰이는 반면, 텍스트(프로그래밍 코드 포함)를 생성하는 LLM은 트랜스포머를 기반으로 구축된다. 다만 두 기술의 경계는 점차 희미해지고 있다. 앞서 살펴본 것처럼 트랜스포머와 확산 모델을 결합해 영상을 생성하는 시도가 이뤄지고 있으며, 구글 딥마인드는 “올여름 텍스트 생성을 위해 트랜스포머 대신 확산 모델을 적용한 실험적 LLM을 개발 중”이라고 밝혔다.

흥미로운 점은 확산 모델을 이용한 영상 생성은 막대한 에너지를 소모하지만 정작 확산 모델 자체는 트랜스포머보다 더 효율적이라는 사실이다. 따라서 텍스트 생성에 트랜스포머 대신 확산 모델을 적용한다면 딥마인드의 새 LLM은 기존 모델보다 훨씬 높은 에너지 효율성을 가질 수 있다. 확산 모델이 더 다양한 영역에서 주목받게 될 날이 머지않았다는 의미다.

The post 새로운 영상 생성 시대 연 AI 기술, 그 작동 원리를 파헤치다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.