현실과 가상의 경계를 허무는 신세시아의 ‘AI 아바타’

AI 아바타가 점점 더 사실적인 표정과 억양을 구현하며 사람과의 차이를 좁혀가고 있다. 머지않아 이들은 대화까지 가능해질 전망이다.

올여름 초 필자는 런던의 한 고급 사무실을 찾았다. 유리로 된 로비를 지나 엘리베이터에 올라탄 뒤 복도를 따라 들어가자 카펫이 깔린 깔끔한 방이 눈에 들어왔다. 창으로 쏟아지는 햇살에 더해 우산처럼 생긴 대형 조명 장치 두 개가 공간을 더욱 환히 밝혔다. 삼각대에 놓인 대형 카메라와 대본이 띄워진 노트북 앞에 앉은 필자는 눈이 부시지 않은 척 애쓰며 심호흡을 하고 대본을 읽기 시작했다.

이곳은 뉴스 앵커석도, 영화 오디션장도 아닌 AI 기업 신세시아(Synthesia)의 사무실이었다. 신세시아의 아바타는 최근 몇 년간 AI 기술이 얼마나 눈부신 속도로 발전했는지를 보여주는 지표와도 같다. 필자는 지난달 공개된 최신 모델이 사람을 얼마나 정밀하게 재현할 수 있을지 직접 확인해 보고자 이곳을 찾았다. 필자의 아바타 제작에 필요한 데이터를 제공하기 위해서였다.

신세시아가 2017년 설립될 당시 회사의 목표는 실제 인물의 얼굴을 AI로 구현하고, 이를 다양한 언어로 더빙된 목소리와 매칭하는 것이었다. 전직 축구 스타 데이비드 베컴이 다른 언어로 말하는 영상을 만드는 식이었다. 이후 2020년에는 기업 고객이 직원이나 사전에 동의한 배우들의 아바타를 활용해 전문가 수준의 프레젠테이션 영상을 제작할 수 있도록 서비스를 확대했다. 하지만 당시 기술은 아직 완벽하지 않았다. 아바타의 움직임은 끊기고 부자연스러웠으며, 발음이 매끄럽지 않았고, 목소리가 전달하는 감정이 표정과 어긋나는 경우도 많았다.

하지만 지금의 신세시아 아바타는 한층 달라진 모습이다. 동작은 매끄러워졌고, 화자의 억양과 감정을 자연스럽게 살려내는 목소리를 구현했다. 그 어느 때보다 사람에 가까워진 것이다. 이 아바타는 이제 재무 실적 발표나 사내 커뮤니케이션, 직원 교육 영상에서 기업의 메시지를 매끄럽게 전하는 새로운 발표자로 등극했다.

필자는 자신의 아바타 시연 영상을 보며 기술적 성취에 감탄하면서도 묘한 섬뜩함을 느꼈다. 화면 속 영상은 어느 기업 임원이 발표하는 연설을 담은 고화질 녹화물이라 해도 손색이 없었고, 필자를 모르는 사람이라면 실제 촬영본이라고 믿었을 것이다.

이 경험은 인공과 현실을 가르는 경계가 얼마나 좁혀지고 있는지를 보여준다. 머지않아 이 아바타는 단순히 말을 전달하는 수준을 넘어 우리와 직접 대화를 나누게 될지도 모른다. 그러나 과연 어디까지 정교해질 수 있을까. 또 AI 복제 아바타와의 상호작용은 인간에게 어떤 영향을 미치게 될까.

AI 아바타의 제작 과정

지난해 필자의 전 동료 멜리사(Melissa)는 런던의 신세시아 스튜디오에서 자신의 아바타를 만들기 위해 긴 절차를 거쳐야 했다. 시스템을 조정하고, 다양한 감정을 담아 대본을 읽은 뒤, 아바타가 모음과 자음을 제대로 구현할 수 있도록 입 모양까지 세세히 재현해야 했다.

15개월이 지난 지금, 환한 조명이 켜진 같은 공간에 선 필자는 제작 과정이 크게 간소화됐다는 사실을 듣고 안도했다. 신세시아의 조시 베이커 멘도사(Josh Baker-Mendoza) 기술 감독은 필자에게 자연스럽게 손짓을 하라고 권하면서도 과도한 움직임은 삼가라고 당부했다. 필자는 감정을 풍부하게 담아 열정적으로 말하도록 설계된 다소 과장된 대본을 반복해서 읽었다. 그 결과는 마치 스티브 잡스가 금발의 영국 여성으로 부활해 낮고 단조로운 목소리로 연설하는 듯한 인상을 줬다.

영상 속 모습은 안타깝게도 신세시아 직원이 발표하는 것처럼 들리기도 했다. 필자는 목소리에 생기를 불어넣으려 애쓰며 “오늘 이렇게 여러분 앞에서 우리가 만들어온 결과물을 보여드리게 돼 매우 기쁘다. 혁신의 최전선에 있는 우리의 가능성은 무궁무진하다”고 말했다. 이어 “머지않아 여러분을 놀라게 할 경험이 찾아올 것이며 이번 기회는 단순한 변화를 넘어 거대한 전환점이 될 것”이라고 덧붙였다.

불과 한 시간 만에 촬영은 끝이 났다. 몇 주 뒤 필자는 두 가지 버전의 아바타를 전달받았다. 하나는 구모델인 익스프레스-1(Express-1)로 제작된 것이었고, 다른 하나는 최신 기술인 익스프레스-2(Express-2)로 구현된 버전이었다. 신세시아는 익스프레스-2가 실제 인물의 특징을 더욱 사실적으로 재현한다며 손짓과 표정, 말투까지 한층 자연스러워졌다고 강조했다.

COURTESY SYNTHESIA

지난해 멜리사는 익스프레스-1 기반 아바타가 자신 특유의 대서양식 억양, 즉 영국식과 미국식이 섞인 발음을 제대로 구현하지 못한다는 사실을 깨달았다. 감정 표현 역시 제한적이었다. 아바타에게 화난 듯 대본을 읽으라고 했지만 분노라기보다 투정에 가까운 목소리가 나왔다. 이후 몇 달간 신세시아는 익스프레스-1을 개선했지만 같은 기술로 제작된 필자의 아바타는 여전히 과도하게 눈을 깜박이고, 몸짓과 발화를 자연스럽게 맞추지 못했다.

반면 익스프레스-2로 제작된 아바타는 놀라울 만큼 필자와 닮아 있었다. 얼굴 특징은 거의 완벽히 재현됐고 목소리 역시 섬뜩할 정도로 정확했다. 손짓은 실제보다 다소 과장돼 있었지만 대체로 말과 잘 어울렸다.

그럼에도 불구하고 인공지능으로 만든 흔적은 곳곳에서 드러났다. 손바닥은 분홍빛으로 반짝이며 점토처럼 매끈했고, 머리카락은 어깨에 뻣뻣하게 걸려 움직임을 따라가지 못했다. 눈은 유리알처럼 정면만 응시하며 거의 깜박이지 않았고, 목소리는 분명 필자와 같았지만 억양과 발화 패턴에는 미묘한 어색함이 배어 있었다. 아바타는 갑자기 “정말 멋지네요!”라고 외치더니 곧 정상적인 말투로 돌아가기도 했다.

베를린 훔볼트대학교에서 박사 후 연구원으로 활동하며 딥페이크 얼굴에 대한 인간의 인식 방식을 연구해 온 안나 아이저베크(Anna Eiserbeck)는 “처음 영상을 봤을 때 필자의 아바타를 딥페이크라고 단번에 알아차리기는 힘들 것 같다”고 말했다. 그녀는 이어 “하지만 시간이 지나면 뭔가 이상하다는 사실을 눈치챘을 것”이라고 덧붙였다.

단순히 귀걸이가 부자연스럽게 고정돼 있거나 몸이 갑자기 경직되는 미세한 움직임 때문만은 아니었다. 아이저베크는 “겉으로는 멀쩡해 보여도 어딘가 비어 있는 듯한 느낌이 들었고, 실제 감정이 담겨 있지 않다는 걸 알 수 있었다”며 “아바타는 의식 있는 존재가 아니기 때문에 아무것도 느끼지 못한다”고 설명했다. 그녀는 영상을 보는 내내 ‘섬뜩한 불편함’을 느꼈다고 했다.

필자의 디지털 아바타와 이에 대한 아이저베크의 반응은 이런 아바타가 과연 얼마나 사실적으로 구현돼야 하는지를 다시 생각하게 만든다. 필자가 불편함을 느낀 이유는 아바타가 실제 필자의 모습과 전혀 다른 방식으로 행동했기 때문이었다. 지나치게 밝은 말투는 평소의 화법과 완전히 달랐다. 필자는 다소 냉소적인 성향 탓에 실제로 기쁘거나 흥분한 순간에도 목소리에 큰 변화가 없는 편이다. 그런데 영상을 반복해 보니 정말 내 자신이 저렇게 손을 크게 흔드는지, 혹은 입을 그렇게 이상하게 움직이는지 스스로 의심하게 됐다. 줌(Zoom) 화면 속 자신의 얼굴을 마주하는 것조차 낯선 사람이라면 아바타를 통해 ‘또 다른 나’를 보는 경험은 훨씬 더 압도적인 경험이 될 것이다.

20년 전 페이스북이 영국에서 막 인기를 끌기 시작했을 때, 필자와 친구들은 서로의 계정에 몰래 로그인해 가장 기이하거나 분노를 유발할 만한 상태 메시지를 올리는 것을 최고의 장난으로 여겼다. 머지않아 누군가의 아바타를 빌려 난처한 발언을 하게 만드는 일이 그와 비슷한 장난이 되지 않을까. 예컨대 추문에 휩싸인 정치인을 지지한다거나, 필자의 경우라면 에드 시런(Ed Sheeran)의 음악을 좋아한다고 고백하는 식이다.

익스프레스-2는 사람을 모두 과장된 제스처를 곁들인 전문 발표자로 탈바꿈시킨다. 기업 홍보 영상을 제작하는 회사라면 목적에 부합하는 기능일 수 있다. 그러나 필자가 본 자신의 아바타는 결코 ‘나’처럼 느껴지지 않았고, 완전히 다른 존재 같았다.

AI 아바타의 작동 원리

임페리얼 칼리지 런던의 뵈른 슐러(Björn Schuller) 인공지능학 교수는 “오늘날 진짜 기술적 과제는 아바타의 외형을 닮게 만드는 일이 아니라, 실제 인간의 행동을 얼마나 정교하게 재연하느냐에 있다”고 말했다. 그는 “올바르게 구현하려면 미세한 제스처, 정확한 억양, 목소리 톤과 단어 선택까지 고려해야 할 요소가 많다”며 “AI 아바타가 잘못된 순간에 찡그린다면 전혀 다른 메시지를 전달할 수 있다”고 설명했다.

더 높은 수준의 사실감을 구현하기 위해 신세시아는 새로운 음성·영상 AI 모델을 개발했다. 이 가운데 하나는 화자의 억양과 말투, 표현력을 그대로 보존하는 음성 복제 모델이다. 다른 모델들이 화자의 개성 있는 억양을 살리지 못하고 획일적으로 미국식 발음을 내는 것과 차별화되는 부분이다.

사용자가 익스프레스-1에 대본을 업로드하면 시스템은 단어를 분석해 적합한 말투를 추론한다. 이 정보는 확산 모델(diffusion model)에 입력돼 발화에 맞는 아바타의 표정과 움직임을 구현한다.

익스프레스-2는 여기에 세 가지 모델을 더해 아바타를 생성하고 움직임을 부여한다. 첫 번째 모델은 익스프레스 보이스 모델(Express-Voice model)에서 전달된 음성에 맞춰 아바타의 제스처를 만든다. 두 번째 모델은 입력된 음성과 생성된 여러 버전의 움직임을 비교해 가장 적합한 것을 고른다. 마지막 모델은 그 움직임을 적용해 최종 아바타를 렌더링한다.

특히 익스프레스-2의 세 번째 렌더링 모델은 이전 세대인 익스프레스-1보다 훨씬 강력하다. 앞선 모델이 수억 개 수준의 파라미터를 갖췄다면, 익스프레스-2는 수십억 개에 달한다. 신세시아의 유세프 알라미 메자티(Youssef Alami Mejjati) 연구개발 책임자는 “이를 통해 아바타 제작에 필요한 시간을 줄일 수 있다”고 설명했다.

그는 또 “익스프레스-1은 감정을 표현하는 장면을 직접 학습해야 렌더링할 수 있었지만, 익스프레스-2는 훨씬 더 다양한 데이터와 방대한 데이터세트, 그리고 더 큰 연산 능력으로 훈련한 덕분에 별도로 보여주지 않아도 자동으로 이런 연관성을 학습한다”고 덧붙였다.

현실과 가상의 간극 좁히기

사람과 흡사한 AI 생성 아바타는 이미 수년 전부터 존재했지만, 최근 생성형 AI의 급성장으로 훨씬 더 사실적인 아바타를 쉽고 저렴하게 제작할 수 있게 됐다. 이들은 이미 다양한 현장에서 활용되고 있다.

이는 신세시아만의 이야기가 아니다. 유즈랩스(Yuzu Labs), 크리에이티파이(Creatify), 아크대즈(Arcdads), 비드야드(Vidyard) 같은 아바타 전문 기업들은 AI 배우나 직원의 아바타를 주인공으로 한 영상을 빠르게 제작·편집할 수 있는 도구를 제공한다. 비용 효율적이면서도 관객과 소통할 수 있는 매력적인 광고 제작을 앞세운다. 일례로 중국에서는 최근 몇 년 사이 AI 생성 라이브 스트리머 아바타가 폭발적인 인기를 끌었다. 이들은 피로를 느끼거나 임금을 요구하지 않고도 24시간 내내 상품을 판매할 수 있기 때문이다.

신세시아는 현재까지는 기업 시장에만 집중하고 있다. 그러나 신세시아의 피터 힐(Peter Hill) 최고기술책임자(CTO)는 “엔터테인먼트나 교육 등 새로운 분야로 확장할 가능성도 염두에 두고 있다”고 밝혔다.

실제로 신세시아는 최근 구글과 손잡고 구글의 최신 생성형 동영상 모델 ‘비오 3(Veo 3)’를 자사 플랫폼에 통합했다. 이를 통해 사용자는 직접 동영상을 생성해 신세시아 영상에 삽입할 수 있게 됐다. 이는 앞으로 초현실적인 합성 인간이 끊임없이 변화하는 환경 속에서 새로운 주연으로 등장할 수 있음을 시사한다.

현재로서는 비오 3를 활용해 정육 가공 기계 영상을 만들고, 그 옆에서 신세시아 아바타가 안전한 사용법을 설명하는 식의 응용이 가능하다. 그러나 신세시아의 알렉스 보이카(Alex Voica) 기업정책 총괄은 “미래에는 개인의 지식 수준에 맞춘 맞춤형 교육 영상 제작까지 가능해질 것”이라고 전망했다. 그는 “예컨대 지구 생명 진화 과정을 다룬 영상을 생물학 학위를 가진 사람과 고등학교 수준의 배경지식을 가진 사람에 맞게 각각 조정할 수 있다”며 “앞으로는 훨씬 더 몰입감 있고 개인화된 콘텐츠 전달이 가능해질 것으로 기대된다”고 말했다.

신세시아의 다음 목표는 사용자와 실시간으로 대화하며 응답할 수 있는 아바타를 개발하는 것이다. 대화를 이해하고 즉각 반응하는 아바타, 다시 말해 챗GPT에 사실적인 디지털 인간을 결합한 형태다.

신세시아는 이미 아바타가 진행하는 퀴즈에 화면 속 질문을 클릭해 답할 수 있는 상호적 요소를 추가했다. 하지만 진정한 의미의 상호작용을 구현하기 위한 방안도 모색하고 있다. 앞으로는 사용자가 아바타에게 영상을 멈추고 특정 부분을 더 자세히 설명해 달라고 요청하거나, 직접 질문을 던지는 것도 가능해질 전망이다.

메자티는 “재미있으면서도 개인화되고 상호적인 영상을 통해 최고의 학습 경험을 제공하고 싶다”며 “이는 현재 온라인 학습 환경에 빠져 있는 마지막 퍼즐이며, 우리는 그 해답에 매우 가까이 다가가 있다”고 말했다.

사람들이 AI 시스템과 깊은 정서적 유대감을 형성할 수 있다는 사실은 이미 잘 알려져 있다. 단순한 텍스트 기반 챗봇과도 그러한 관계가 만들어지는 경우가 있다. MIT 미디어랩 팻 파타라누타폰(Pat Pataranutaporn) 조교수는 “웹 탐색이나 코딩, 비디오게임까지 스스로 수행할 수 있는 에이전트형 기술에 사실적인 인간 얼굴이 결합된다면 전혀 새로운 형태의 AI 중독을 불러올 수 있다”고 지적했다.

그는 “시스템이 지나치게 사실적이면 사람들은 이 캐릭터들과 특정한 관계를 맺기 시작할 수 있다”며 “이미 단순한 텍스트만으로도 AI 모델이 사용자의 행동에 위험한 영향을 끼친 사례가 많았다”고 경고했다. 이어 “만약 아바타가 사람의 얼굴을 하고 말을 한다면 중독성은 훨씬 더 커질 것”이라고 덧붙였다.

슐러 교수 역시 “머지않아 아바타는 감정과 매력을 최적화해 사용자들을 더 오래 붙잡아 둘 것”이라고 내다봤다. 그는 “이런 AI와 경쟁하는 일은 인간에게 매우 어려울 것”이라며 “AI는 언제나 곁에 있고, 늘 귀 기울이며, 모든 것을 이해해 주는 존재로 인식되면서 결국 인간과 인간 사이의 관계를 바꿔놓을 것”이라고 설명했다.

필자는 익스프레스-2 아바타를 보며 픽셀과 알고리즘으로 만들어진, 이 낯설지만 늘 긍정적이고 언제든 불러낼 수 있는 아바타와 대화를 나누는 상황을 떠올려 봤다. 겉모습과 목소리는 분명 나와 같지만, 본질적으로는 결코 내가 아닌 존재였다. 이 가상의 인물은 눈물이 날 때까지 웃어본 적도, 사랑에 빠져본 적도, 마라톤을 완주한 적도, 다른 나라에서 해가 지는 광경을 본 적도 없다.

그럼에도 필자는 인정하지 않을 수 없었다. 이 아바타는 ‘에드 시런이 영국에서 배출한 가장 위대한 음악가인 이유’를 주제로 훌륭한 프레젠테이션을 해낼 수 있을 것이다. 그리고 그것이 진짜 필자가 아니라는 사실을 알아차릴 수 있는 사람은 오직 가장 가까운 친구와 가족뿐일 것이다.

The post 현실과 가상의 경계를 허무는 신세시아의 ‘AI 아바타’ appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.