AI가 이제 ‘동시다발’ 통역도 한다…음성 따라 목소리까지 복제

여러 명이 동시에 말하는 상황에서도 화자별 발화 방향과 목소리를 구분해 실시간으로 통역해주는 AI 기반 ‘공간 음성 번역’ 기술이 개발됐다.

여러 언어를 쓰는 친구들과 저녁 식사를 함께하는데, 그들이 무슨 말을 하는지 모두 이해할 수 있다고 상상해 보자. 바로 이러한 상황에서 영감을 얻어 개발된 기술이 있다. 여러 명의 화자가 동시에 말하는 내용을 실시간으로 번역해 주는 인공지능(AI) 기반 헤드폰 시스템이다.

‘공간 음성 번역(Spatial Speech Translation)’이라 불리는 이 시스템은 각 화자의 음성 특징과 발화 방향을 인식해 복수의 화자가 참여한 대화 속에서 누가 어떤 말을 하는지를 파악할 수 있도록 도와준다.

이 시스템에 대한 연구 결과는 5월 일본 요코하마에서 열린 ‘ACM CHI 인간-컴퓨터 상호작용 학회(ACM CHI Conference on Human Factors in Computing Systems)’에서 발표됐다.

시스템 개발 프로젝트에 참여한 샴 골라코타(Shyam Gollakota) 워싱턴 대학교 교수는 “세계 곳곳에 똑똑한 사람들이 정말 많지만, 언어 장벽으로 인해 자신 있게 소통하지 못하는 경우가 허다하다”고 설명했다. 그는 이어 “나의 어머니도 텔루구어로 이야기할 때는 훌륭한 말씀들을 많이 하시지만 인도에서 미국을 방문하면 의사소통에 큰 어려움을 겪는다”며 “이 시스템이 어머니 같은 분들에게 획기적인 전환점이 될 수 있을 것이라 생각한다”고 덧붙였다.

메타의 레이밴(Ray-Ban) 스마트글라스처럼 실시간 AI 통역 기능을 탑재한 제품은 이미 시중에 여럿 출시돼 있다. 하지만 대부분은 단일 화자의 목소리만 처리할 수 있으며, 기계처럼 딱딱한 음성으로 번역 내용을 전달하는 데 그친다.

반면 이번에 개발된 시스템은 다수의 화자가 동시에 말을 주고받는 상황에도 대응할 수 있도록 설계됐다. 이 시스템은 마이크가 탑재된 시판용 일반 노이즈 캔슬링 헤드폰에 연결해 사용할 수 있으며, 뉴럴 네트워크를 구동할 수 있는 애플의 M2 실리콘 칩이 탑재된 노트북이 필요하다. 이 칩은 애플의 비전 프로(Vision Pro) 헤드셋에도 적용돼 있다.

최근 몇 년 사이 대형언어모델(LLM)의 발전은 음성 번역 기술의 비약적인 향상을 이끌어냈다. 이로 인해 구글 번역이나 챗GPT처럼 학습 데이터가 풍부한 언어 간 번역, 특히 이번 연구에서 사용된 네 개 언어 간 번역은 사실상 완벽에 가까운 수준까지 도달했다. 하지만 여전히 다양한 언어를 아우르며 즉각적이고 자연스러운 번역을 구현하기에는 한계가 있다.

네덜란드 라이덴 대학교에서 전산언어학을 연구하고 있는 알리나 카라칸타(Alina Karakanta) 부교수는 이번 프로젝트에 참여하지는 않았지만 이 기술에 대해 “실용적인 응용 사례로서 사람들에게 실질적인 도움을 줄 수 있을 것”이라고 평가했다.

공간 음성 번역 시스템은 두 개의 AI 모델로 구성돼 있다. 첫 번째 모델은 헤드폰을 착용한 사용자의 주변 공간을 여러 작은 영역으로 나누고, 뉴럴 네트워크를 활용해 잠재적인 화자의 위치를 탐색한 뒤 그 방향을 정밀하게 파악한다.

두 번째 모델은 공개된 데이터 세트를 활용해 프랑스어, 독일어, 스페인어로 이루어진 화자의 발화를 영어 텍스트로 번역한다. 이 과정에서는 단순한 번역을 넘어 화자의 고유한 음성 특징과 감정적 어조까지 함께 추출된다. 예를 들어 음의 높낮이나 세기 등을 분석한 뒤 이를 번역된 텍스트에 반영함으로써 사실상 ‘복제된(cloned)’ 음성을 만들어내는 방식이다.

이렇게 생성된 음성은 몇 초 뒤 헤드폰 사용자에게 전달되며, 마치 원래 화자가 있는 방향에서 들려오는 것처럼 느껴진다. 또 음성도 컴퓨터가 만든 기계음이 아닌 화자의 실제 목소리와 유사하게 들린다.

미국 카네기멜런 대학교 언어기술연구소(Language Technologies Institute)의 샤무엘레 코넬(Samuele Cornell) 박사후 연구원은 이 프로젝트에 직접 참여하지는 않았지만 “사람의 음성을 분리해 내는 것 자체도 AI에게는 고난도 작업인데, 이를 실시간 번역 시스템에 접목하고, 화자와 청자 간의 거리를 계산하며, 실제 기기에서 일정한 지연 속도를 유지해 냈다는 점은 상당히 인상적”이라고 평가했다.

코넬은 “실시간 음성 간 통역(speech-to-speech translation)은 구현하기 매우 어려운 기술”이라며 “이번 연구는 제한된 테스트 환경에서는 매우 우수한 성과를 보여줬지만, 상용 제품으로 전환하려면 훨씬 더 방대한 학습 데이터가 필요할 것”이라고 설명했다. 이어 “합성 데이터에만 의존할 것이 아니라 실제 헤드셋을 통해 수집한 소음 환경과 실사용 녹음 데이터를 함께 반영해야 한다”고 덧붙였다.

골라코타 교수 연구팀은 현재 화자가 말을 한 뒤 AI 번역이 작동하기까지 걸리는 시간을 줄이는 데 주력하고 있다. 서로 다른 언어를 사용하는 사람들 간에도 보다 자연스럽게 대화를 이어갈 수 있도록 만들기 위해서다. 골라코타 교수는 “번역 지연 시간을 1초 이하로 줄여 진짜 대화처럼 느껴지는 수준을 구현하는 것이 목표”라고 밝혔다.

하지만 이 역시 여전히 풀기 어려운 과제로 남아 있다. 한 언어를 다른 언어로 번역하는 데 걸리는 시간은 언어의 구조적 특성에 따라 달라지기 때문이다. 공간 음성 번역 시스템이 학습한 세 가지 언어 가운데 프랑스어가 가장 빠르게 영어로 번역됐으며, 그다음은 스페인, 마지막은 독일어 순이었다.

독일 마인츠에 위치한 요하네스 구텐베르크 대학교의 클라우디오 판티누올리(Claudio Fantinuoli) 연구원은 이번 프로젝트에 참여하지는 않았지만 “독일어는 문장의 핵심 의미와 동사가 문장 끝에 배치되는 구조이기 때문에 프랑스어나 스페인어처럼 문장 앞부분에서 의미를 파악하기 어렵다”고 설명했다.

그는 “번역의 지연 시간을 줄이면 정확도는 떨어질 수 있다”며 “번역을 시작하기 전 기다리는 시간이 길수록 더 많은 문맥 정보를 확보할 수 있고, 그만큼 번역 품질도 좋아진다”고 말했다. 그는 이어 “이는 결국 번역 속도와 품질 사이의 균형을 어떻게 잡느냐의 문제”라고 덧붙였다.

The post AI가 이제 ‘동시다발’ 통역도 한다…음성 따라 목소리까지 복제 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.