창작의 경계를 허무는 AI 음악

새로운 디퓨전 AI 모델이 음악을 생성하기 시작하면서 창작자와 창의성에 대한 기존의 정의가 흔들리고 있다.

1956년 컴퓨팅 분야의 선도 과학자들이 미국 다트머스대학에서 열린 여름 콘퍼런스에 모였을 당시 ‘인공지능(AI)’이라는 용어는 이제 막 등장한 새로운 개념이었다. 이 행사를 주최한 컴퓨터 과학자 존 매카시(John McCarthy)는 자금 지원 요청서에서 처음으로 ‘인공지능’이라는 표현을 사용했고, 이 명칭은 인간처럼 언어를 사용하고, 문제를 해결하며, 스스로를 개선할 수 있는 기계를 만드는 방안을 함께 논의하자는 행사의 취지를 잘 담아냈다. 매카시는 인간 지능의 모든 특징이 “원칙적으로 기계가 모방할 수 있을 만큼 정밀하게 기술될 수 있다”는 믿음을 바탕으로 이 개념을 제안했다.

당시 제출된 제안서에는 ‘인공지능 문제의 여러 측면들(several aspects of the artificial intelligence problem)’이라는 항목 아래 여러 과제가 나열되어 있었는데, 그 마지막 항목이자 오늘날까지도 가장 도전적인 과제로 남아있는 것이 바로 창의성과 독창성을 지닌 기계를 만드는 일이었다.

당시 심리학계도 인간의 창의성을 어떻게 정의하고 측정할 수 있을지를 두고 깊은 고민에 빠져 있었다. 창의성은 지능과 높은 IQ에서 비롯된다는 기존 이론은 점차 설득력을 잃어가고 있었지만, 이를 대체할 이론은 아직 등장하지 않은 상태였다. 이에 대해 다트머스 콘퍼런스의 주최자들은 나름의 해석을 제시했다. 이들은 “‘창의적인 사고’와 ‘유능하지만 상상력이 부족한 사고’의 차이는 무작위성의 개입 여부에 달려있으며, 이 무작위성은 직관에 의해 효율적으로 조율되어야 한다”고 설명했다.

그로부터 약 70년이 지난 지금, 우리는 수차례의 부침을 거친 끝에 당시 제시된 공식을 상당히 근접하게 구현한 AI 모델을 만들어냈다. 최근 3년간 텍스트를 생성하는 대형언어모델(LLM)이 폭발적으로 발전한 가운데 또 다른 유형의 AI가 창의의 영역에서 전례 없는 파장을 일으키고 있다. 바로 ‘디퓨전 모델(diffusion model)’이라 불리는 기술이다.

이 모델은 무작위 잡음을 의미 있는 패턴으로 변환해 텍스트 프롬프트나 기타 입력 데이터를 바탕으로 이미지, 영상, 음성 등을 생성한다. 성능이 뛰어난 모델일수록 인간이 만든 것과 구별하기 어려울 만큼 정교한 창작물을 만들어내며, 때로는 인간의 손길로는 도저히 구현할 수 없을 듯한 기묘하고 초현실적인 결과물까지도 만들어낸다.

그리고 이제 이 디퓨전 모델들은 가장 큰 변화가 예상되는 창의의 영역, 바로 ‘음악’에 진입하고 있다. AI가 만든 음악은 오케스트라 연주부터 헤비메탈에 이르기까지 다양하며, 지금까지 등장한 어떤 AI 산물보다도 훨씬 더 깊숙이 우리의 일상 속으로 파고들고 있다. 이 곡들은 스트리밍 플랫폼, 각종 파티와 결혼식 플레이리스트, 영화나 드라마의 사운드트랙 등 다양한 경로를 통해 자연스럽게 스며들 수 있으며, 누가 (혹은 무엇이) 만든 것인지조차 인식하지 못한 채 소비하게 될지도 모른다.

수년 전부터 시각 예술계에서는 디퓨전 모델이 만들어낸 결과물이 진정한 창작인지, 아니면 단순한 복제인지에 대한 논쟁이 이어져 왔다. 그리고 이제 이 논쟁은 인간의 기억과 경험, 사회적 관계 속에 깊이 뿌리내린 예술 형태인 ‘음악’으로 넘어왔다. 음악 생성 모델은 이제 사람의 감정을 실제로 자극할 수 있는 곡을 만들어내고 있으며, 이는 AI 시대에 창작자와 독창성의 개념이 얼마나 모호해졌는지를 단적으로 보여준다.

법원 역시 이 복잡한 문제를 두고 분투 중이다. 주요 음반사들은 AI 음악 생성 기술을 개발한 기업들을 상대로 소송을 제기하고 있으며, 디퓨전 모델이 아티스트에게 어떤 보상도 하지 않은 채 인간의 예술을 그대로 복제하고 있다고 주장한다. 이에 대해 모델 개발자들은 해당 기술이 인간의 창작 활동을 보조하기 위해 설계된 것이라고 반박한다.

이 논쟁의 옳고 그름을 가리기 위해서는 우리 스스로 ‘창의성’이라는 개념 자체를 다시 들여다봐야 한다. 그것이 인공 신경망이 만들어낸 산물이든 인간의 뇌에서 비롯된 창작물이든 간에, ‘창의성’이란 결국 방대한 통계적 학습과 사고의 연결성, 그리고 약간의 무작위성이 결합된 결과물에 불과한 것일까? 만약 그렇다면 ‘창작자’라는 개념은 언제든 흔들릴 수 있는 모호한 것이 된다. 반대로 인간에게만 존재하는 고유한 창의성이 있다면 그것은 과연 무엇일까? 창작자가 존재하지 않는 결과물 앞에서 우리가 느끼는 감동은 과연 어떻게 설명해야 할까?

필자 역시 이 질문과 마주하게 됐다. 처음으로 AI가 만든 음악을 듣고 진심으로 훌륭하다고 느꼈을 때, 그것이 단지 누군가가 프롬프트를 입력하고 ‘생성’ 버튼을 눌러 나온 결과물이라는 사실이 낯설고도 당혹스럽게 다가왔다. 그러나 이런 경험은 머지않아 우리 모두가 겪게 될 현실이다.

사고의 연결성

다트머스 콘퍼런스 이후 참가자들은 각자의 방향으로 연구를 진행하며 인공지능의 기초 기술을 구축해 나갔다. 한편 인지과학자들은 1950년 미국심리학회 회장이었던 J.P. 길퍼드(J.P. Guilford)의 제안에 따라 인간의 창의성에 대한 본격적인 탐구를 시작했다. 그 결과, 심리학자 모리스 스타인(Morris Stein)은 1953년 <심리학 저널(Journal of Psychology)>을 통해 창의성에 대한 정의를 처음으로 공식화했다. 그는 창의적인 작품이란 ‘새로움’을 지니는 동시에, 누군가에게 어떤 목적을 충족시켜 주는 ‘유용성’을 갖춰야 한다고 설명했다. 이후 일부 학자들은 유용성 대신 ‘만족감’을 기준으로 삼아야 한다고 주장했고, 또 다른 이들은 창의적인 결과물이 ‘놀라움’을 자아내야 한다는 제3의 기준을 추가해야 한다고 제안했다.

1990년대에 들어서면서 기능적 자기공명영상(fMRI)의 등장으로 음악을 포함한 다양한 분야에서 창의성과 관련된 뇌의 작용을 직접 연구할 수 있는 길이 열렸다. 최근에는 계산적 방법론(computational method)의 발전으로 창의적 사고 과정에서 기억과 연상적 사고가 어떤 역할을 하는지도 보다 정밀하게 분석할 수 있게 되었다.

지금까지 밝혀진 바에 따르면 창의적인 사고가 뇌에서 어떻게 시작되고 전개되는지를 설명하는 단 하나의 통합된 이론은 아직 존재하지 않는다. 오히려 지금까지의 연구는 그 과정을 이해하는 데 도움이 되는 의미 있는 관찰 결과들을 축적한 목록에 가깝다고 할 수 있다.

인간의 창의적 사고는 대체로 아이디어를 떠올리거나 제안하는 단계와, 그것의 가치를 비판적으로 평가하는 단계로 나눌 수 있다. 이 두 단계를 설명하는 핵심 이론 중 하나는 ‘창의성의 연상 이론(associative theory of creativity)’으로, 이는 창의성이 뛰어난 사람일수록 서로 멀리 떨어진 개념들 사이에서 새로운 연결고리를 쉽게 만들어낼 수 있다는 전제에 기반한다.

펜실베이니아주립대학교에서 창의성 인지신경과학 연구소(Cognitive Neuroscience of Creativity Laboratory)를 이끄는 로저 비티(Roger Beaty) 박사는 “그건 일종의 활성화 확산(spreading activation)처럼 작용할 수 있다”며 “하나의 개념을 떠올리면 그와 연관된 다른 개념들이 자연스럽게 활성화되는 방식”이라고 말했다.

이러한 개념 간 연결은 주로 개념과 사실을 저장하는 ‘의미기억(semantic memory)’에 의존한다. 특정한 시간과 장소에서의 경험을 저장하는 ‘일화기억(episodic memory)’과는 구별된다. 최근에는 더욱 정교한 계산 모델들이 등장하면서 사람들이 어떻게 의미상 멀리 떨어진 개념들 사이에 연결고리를 만들어내는지를 구체적으로 연구할 수 있게 되었다. 예를 들어 ‘종말(apocalypse)’이라는 단어는 ‘축하(celebration)’보다는 ‘핵에너지(nuclear power)’와 의미상 더 가깝다고 볼 수 있다. 연구에 따르면 창의성이 높은 사람일수록 의미가 동떨어진 개념들을 더 가깝게 인식하는 경향이 있다. 실제로 예술가들은 비예술가들보다 서로 멀리 떨어진 개념들 사이의 연상을 더 유연하게 만들어내는 것으로 나타났다. 또 다른 연구에서는 창의적인 사람들이 ‘새는 주의(leaky attention)’, 즉 당장 수행 중인 과업과 직접적인 관련이 없어 보이는 정보까지도 민감하게 포착하는 특성이 있다는 사실이 밝혀졌다.

이러한 과정을 평가하는 신경과학적 방법론에 따르면 창의성은 뇌의 특정 부위에서 발생하는 것이 아니다. 창의성 연구의 권위자인 딘 키스 사이먼턴(Dean Keith Simonton) 박사는 《케임브리지 창의성 신경과학 핸드북(Cambridge Handbook of the Neuroscience of Creativity)》에서 “뇌의 어떤 부위도 호르몬을 분비하는 분비샘처럼 창의성을 만들어내지는 않는다”고 설명했다.

대신 창의적 사고가 일어날 때는 뇌의 여러 분산된 네트워크가 동시에 작동한다는 증거가 제시되고 있다. 비티 박사는 “하나는 연상적 사고를 통해 아이디어를 처음 떠올리는 데 관여하고, 두 번째는 유망한 아이디어를 식별하며, 세 번째는 이를 평가하고 수정하는 역할을 한다”고 설명했다. 올해 2월 하버드 의과대학 연구팀이 발표한 새로운 연구에 따르면 창의적 사고에는 특정 뇌 네트워크를 억제하는 과정도 포함될 수 있다. 예를 들어 자기검열과 관련된 네트워크가 억제되는 것이다.

지금까지의 기계 창의성은 (‘창의성’이라 부를 수 있는지에 대해 논쟁의 여지는 있지만) 인간과는 매우 다른 양상을 보여준다. 다트머스 콘퍼런스가 열렸던 당시만 해도 AI 연구자들은 인간의 뇌에서 영감을 받은 기계 설계에 깊은 관심을 보였지만, 디퓨전 모델이 등장한 약 10년 전부터는 그러한 접근 방식에 뚜렷한 변화가 나타나기 시작했다.

이 모델이 어떻게 작동하는지 가장 잘 설명해 주는 실마리는 바로 이름에 있다. 빨간 잉크를 묻힌 붓을 물이 담긴 유리병에 담그면 잉크가 무작위로 퍼지며 물속에서 소용돌이치고, 결국에는 연한 분홍빛 물이 된다. 디퓨전 모델은 이 과정을 거꾸로 시뮬레이션해 무작위성 속에서 인식 가능한 형태를 복원하는 방식이다.

이미지를 대상으로 한 작동 원리를 설명하자면, 코끼리 사진을 떠올리면 이해하기 쉽다. 모델을 학습시키기 위해 먼저 원본 사진의 복사본을 만들고, 그 위에 무작위 흑백 잡음을 덧입힌다. 이어 또 다른 복사본을 만들어 더 많은 잡음을 추가하고, 이런 과정을 수백 번 반복하면 마지막에는 코끼리의 흔적이 완전히 사라진 순수한 잡음만 남는다. 통계 모델은 이 중간 단계의 수많은 이미지에서 어느 정도가 잡음이고 어느 정도가 실제 코끼리인지 비율을 추정한 뒤, 그 추정값을 정답과 비교하며 스스로 오류를 학습한다. 이렇게 수백만 건의 예시를 통해 모델은 점점 더 정교하게 ‘잡음 제거(de-noising)’ 능력을 키우고, 나아가 이러한 이미지 패턴을 ‘평지에 있는 수컷 보르네오 코끼리’와 같은 텍스트 설명과 연결하는 능력도 함께 향상시킨다.

모델이 학습을 마친 지금은 새로운 이미지를 생성할 때 이 과정을 거꾸로 수행한다. 예를 들어 “이끼 낀 숲속의 행복한 오랑우탄”이라는 프롬프트를 입력하면, 모델은 먼저 무작위 흰색 잡음 이미지를 만들어낸 뒤 통계 모델을 활용해 단계적으로 잡음을 제거해 나간다. 처음에는 대강의 형태와 색이 드러나고, 이후 세부 묘사가 점차 채워지며, 마지막에는 (제대로 작동될 경우) 오랑우탄의 이미지가 등장한다. 이 모든 과정은 모델이 ‘오랑우탄’이 무엇인지 실제로 이해하지 못한 채 이루어진다.

음악을 그리는 이미지

이 원리는 음악에도 거의 동일하게 적용된다. 디퓨전 모델은 밴드처럼 피아노 코드로 시작해 보컬과 드럼을 차례로 쌓아가는 방식으로 곡을 만들지 않는다. 대신 모든 요소를 한 번에 생성한다. 이 과정은 하나의 곡이 지닌 복잡한 구성 요소들을, 시간에 따라 변화하는 음파의 진폭을 시각화한 ‘단일 파형(waveform)’으로 표현할 수 있다는 사실에 기반한다.

레코드 플레이어를 떠올리면 이해하기 쉽다. 바늘이 비닐판의 홈을 따라 움직이면, 그 안에 새겨진 음파의 궤적을 그대로 따라가게 된다. 이 신호는 스피커로 전달되고, 스피커는 그 패턴대로 공기를 밀어내며 소리를 만들어낸다. 그렇게 한 곡 전체가 재생된다.

멀리서 보면 파형은 단순히 음량의 변화만을 나타내는 것처럼 보일 수 있다. 하지만 확대해 들여다보면 그 안에는 높낮이가 반복되는 뚜렷한 패턴이 존재한다. 예를 들어 저음 G음을 연주하는 베이스 기타는 초당 49회의 진동을 만들어내며, 이는 파형 상에서 뾰족한 고점과 움푹한 저점으로 나타난다. 하나의 파형은 다양한 악기와 음색이 만들어내는 주파수의 총합을 담고 있다. AI 음악 스타트업 우디오(Udio)의 데이비드 딩(David Ding) 공동창업자는 “특정한 형태들이 점차 드러나기 시작하는데, 이 형상들이 전반적인 멜로디의 구조와 연결된다”고 설명했다.

파형이나 이와 유사한 차트인 스펙트로그램(spectrogram)은 이미지처럼 다룰 수 있기 때문에, 이를 기반으로 디퓨전 모델을 만들 수 있다. 모델은 수백만 개의 기존 음악 클립을 학습하며, 각 클립에는 텍스트로 된 설명이 함께 라벨링 된다. 새로운 곡을 생성할 때는 무작위 잡음에서 시작해 거꾸로 파형을 그려나가는 방식으로 음악을 완성한다. 이때 어떤 방향으로 그려나갈지는 사용자가 입력한 프롬프트에 따라 달라진다.

딩은 구글 딥마인드에서 이미지와 영상용 디퓨전 모델을 개발하는 수석 연구 엔지니어로 5년간 근무한 뒤 회사를 떠나 2023년 뉴욕에 우디오를 설립했다. 현재 우디오는 매사추세츠주 케임브리지에 본사를 둔 경쟁사 수노(Suno)와 함께 AI 음악 생성 기술 분야를 선도하고 있다. 두 회사 모두 음악에 대한 전문 지식이 없는 사람도 쉽게 창작에 도전할 수 있도록 돕는 AI 도구 개발을 목표로 삼고 있다.

수노는 우디오보다 규모가 큰 기업으로, 현재 1,200만 명 이상의 사용자를 보유하고 있다. 2024년 5월에는 1억 2,500만 달러 규모의 투자 유치에 성공했으며, 유명 프로듀서이자 래퍼인 팀발랜드(Timbaland)를 비롯해 다양한 아티스트와의 협업도 진행 중이다. 한편 우디오는 2024년 4월 안드리센 호로위츠(Andreessen Horowitz)와 음악가 윌아이엠(Will.i.am), 커먼(Common) 등으로부터 약 1,000만 달러의 초기 투자를 유치했다.

우디오와 수노가 지금까지 거둔 성과는 음악 청취자 상당수가 자신이 듣는 곡이 인간의 작품인지 AI의 결과물인지에 크게 개의치 않는다는 사실을 보여준다. 수노는 오직 AI로만 음악을 제작하는 크리에이터들의 아티스트 페이지를 운영 중이다. 이들 중 일부는 수많은 팔로워를 보유하고 있으며, AI가 생성한 아티스트 이미지와 함께 활동하고 있다. 이들은 전통적인 의미의 음악가라기보다는 프롬프트를 다루는 데 능숙한 ‘프롬프터(prompter)’에 가깝다. 이들이 만들어내는 음악은 한 명의 작곡가나 가수에게 귀속되지 않으며, 이 새로운 영역에서는 창작자라는 개념은 물론 창작과 복제의 경계까지도 사실상 해체되고 있다.

우디오와 수노가 지금까지 거둔 성과는, 청취자 상당수가 자신이 듣는 음악이 인간의 작품인지 AI의 결과물인지에 크게 개의치 않는다는 사실을 보여준다.

이에 대해 음악 산업은 강하게 반발하고 나섰다. 2024년 6월 두 회사는 주요 음반사들로부터 동시에 소송을 제기당했으며, 현재 법적 절차가 진행 중이다. 유니버셜과 소니 등 대형 음반사들은 “저작권이 있는 음악을 AI 모델이 상상을 초월할 정도의 규모로 학습했으며, 인간이 녹음한 음악의 특성을 모방한 곡들을 생성하고 있다”고 주장했다. 실제로 수노를 상대로 제기된 소송에서는 ABBA를 연상시키는 곡 <Prancing Queen>이 언급되기도 했다.

수노 측은 소송 관련 인터뷰 요청에 응하지 않았지만, 마이키 슐먼(Mikey Shulman) CEO는 지난해 8월 자사 블로그에 게재한 성명을 통해 “인터넷에 공개된 음악을 학습에 활용한 것”이라고 설명했다. 그는 “그 음악에는 저작권이 있는 자료도 포함돼 있긴 하다”고 인정하면서도 “학습 자체는 침해에 해당하지 않는다”고 반박했다.

우디오 측은 진행 중인 소송과 관련해 공식적인 입장을 내놓지 않았지만, 소송 제기 당시 발표한 성명을 통해 자사 모델에는 “저작권이 있는 작품이나 특정 아티스트의 목소리를 재현하지 않도록 필터링 기능이 탑재돼 있다”고 해명했다.

이 문제를 한층 더 복잡하게 만드는 것은 미국 저작권청(US Copyright Office)의 지침이다. 지난 1월 발표된 지침에 따르면 인간의 개입이 충분하다고 판단되는 경우 AI가 생성한 결과물도 저작권 보호를 받을 수 있다. 한 달 뒤 뉴욕의 한 예술가가 AI의 도움을 받아 제작한 시각 예술 작품으로 저작권 등록을 받은 첫 사례가 등장했고, 음악 분야에서도 유사한 사례가 곧 뒤따를 수 있다는 전망이 나오고 있다.

혁신인가, 모방인가

이와 같은 법적 분쟁은 이미 다양한 AI 관련 소송에서 쟁점이 되어온 회색지대를 다시금 건드리고 있다. 핵심은 AI 모델이 저작권이 있는 콘텐츠를 학습하는 것이 법적으로 허용되는지, 그리고 AI가 생성한 음악이 인간 아티스트의 고유한 스타일을 부당하게 모방한 것으로 볼 수 있는지에 대한 판단이다.

하지만 이러한 법적 논의와는 별개로 AI 음악은 어떤 형태로든 계속해서 확산될 가능성이 크다. 유튜브는 AI 학습용 음악 라이선스를 확보하기 위해 주요 음반사들과 협상 중인 것으로 전해졌으며, 메타 역시 유니버설뮤직그룹과의 협약을 확대하면서 AI 생성 음악에 대한 정식 라이선스 체계가 본격적으로 마련될 조짐을 보이고 있다.

AI 음악이 실제로 대중문화 속에 자리를 잡게 된다면 과연 그 음악은 ‘좋은’ 음악이 될 수 있을까? 이를 판단하는 데는 세 가지 요소가 작용한다. 첫째는 학습 데이터다. 모델의 성능은 결국 어떤 음악을 학습했는지, 그리고 그 음악이 얼마나 세밀하게 설명되어 있는지에 달려있다. 따라서 이 설명은 음악의 복잡성을 충분히 담아낼 수 있을 만큼 정교해야 한다. 둘째는 디퓨전 모델의 설계다. 모델의 구조에 따라 학습한 정보를 얼마나 효과적으로 활용해 음악을 생성할 수 있는지가 결정된다. 마지막으로는 프롬프트, 즉 사용자가 모델에 어떤 요청을 입력하느냐가 관건이다. 예컨대 “색소폰 소리를 줄여줘”라는 지시를 모델이 얼마나 정확하게 ‘이해’하고 반영하느냐에 따라 최종 결과물의 완성도가 달라질 수 있다.

AI로 생성한 결과물은 진정한 창작일까, 아니면 단지 학습 데이터를 복제한 것에 불과할까? 이는 AI 음악뿐만 아니라 인간의 창의성에도 똑같이 던질 수 있는 근본적인 질문이다.

논의의 핵심은 학습 데이터의 범위와 다양성, 그리고 그것이 얼마나 정교하게 라벨링 되어 있는가에 있다. 현재까지 수노와 우디오 모두 자사 모델이 어떤 음악을 학습했는지에 대해서는 구체적인 정보를 공개하지 않았다. 그러나 진행 중인 소송 과정에서 이 내용은 밝혀질 가능성이 크다.

우디오는 곡을 어떻게 라벨링 하느냐가 모델 성능을 좌우하는 핵심 요소라고 강조한다. 딩은 “현재 우리는 음악을 더욱 세밀하게 라벨링하는 방법에 대해 활발히 연구 중”이라며 “기본적으로 장르를 분류하는 것이지만, 곡의 분위기가 슬픈지, 고양되는지, 차분한지도 추가할 수 있고, 더 기술적인 차원에서는 투파이브원(II–V–I) 코드 진행이나 특정 음계 같은 요소도 포함할 수 있다”고 설명했다. 우디오에서는 현재 인간과 기계를 통한 라벨링을 함께 진행하고 있다.

그는 이어 “우디오는 다양한 사용자층을 타깃으로 하기 때문에 라벨링 작업에도 다양한 유형의 음악 주석자도 필요하다”며 “음악을 고도로 기술적인 언어로 설명할 수 있는 박사급 전문가뿐 아니라 비공식적인 자신만의 언어로 음악을 표현하는 음악 애호가들도 중요한 역할을 한다”고 덧붙였다.

AI 음악 모델이 경쟁력을 유지하려면 사람이 만든 새로운 음악을 지속적으로 학습해야 한다. 그렇지 않으면 모델의 출력은 시간이 멈춘 듯 구식으로 들릴 수밖에 없다. 현재의 AI 음악은 여전히 인간의 창작물을 바탕으로 학습하고 있지만, 향후에는 AI가 스스로 만든 음악을 기반으로 다시 학습하는 방식도 가능할 것으로 보인다. 이는 이미 다른 AI 분야에서 실험적으로 시도되고 있는 접근법이기도 하다.

디퓨전 모델은 동일한 프롬프트를 입력해도 매번 다른 결과를 생성하는 ‘비결정적(non-deterministic)’ 특성을 갖는다. 이는 모델이 무작위 잡음 샘플에서 작업을 시작하기 때문이기도 하지만 우디오를 비롯한 많은 디퓨전 모델 개발사들이 생성 과정에 추가적인 무작위성을 의도적으로 주입하기 때문이기도 하다. 각 단계에서 생성된 파형에 미세한 왜곡을 가해 의도적으로 완벽하지 않은 결과를 만들어냄으로써, 더 흥미롭고 현실감 있는 결과물을 얻으려는 전략이다. 이러한 방식은 1956년 다트머스 콘퍼런스를 주최했던 연구자들이 당시 권장했던 방식이기도 하다.

우디오의 앤드루 산체스(Andrew Sanchez) 공동창업자 겸 최고운영책임자(COO)는 “생성형 AI 모델에 내재된 이 무작위성이 사람들을 놀라게 만드는 요인”이라고 말했다. 그는 “지난 70년간 컴퓨터는 입력을 주면 항상 같은 결과를 내는 결정론적(deterministic) 방식으로 작동해 왔다”고 설명했다. 그는 이어 “함께 작업 중인 많은 아티스트들이 ‘왜 이런 결과가 나오는 거냐’고 묻곤 하지만 솔직히 우리도 정확히는 모른다고 답한다”고 설명했다. 생성형 모델의 시대에는 AI의 작동 원리가 개발자들조차 완전히 파악하기 어려울 만큼 복잡하고 예측 불가능하다는 점을 인정할 필요가 있다.

결국 AI가 내놓은 결과물이 진정한 창작인지, 아니면 단순히 학습 데이터를 복제한 것인지에 대한 질문은 쉽게 답할 수 없다. AI 음악 팬들은 인간의 창작물에도 동일한 질문을 던질 수 있다고 말한다. 우리가 성장하며 들은 수많은 음악은 뇌의 학습 메커니즘에 영향을 주고, 이 기억들이 훗날 우리의 창작에 반영되기 때문이다. 라이스대학교(Rice University)에서 음악을 가르치고 있는 작곡가 앤서니 브랜트(Anthony Brandt) 교수는 최근 연구에서 “인간과 LLM 모두 과거 경험을 바탕으로 가능한 미래 시나리오를 평가하고 더 나은 선택을 내린다”고 지적했다.

실제로 인간의 예술, 특히 음악은 상당 부분 차용에 기반한다. 이로 인해 곡이 무단으로 복제되거나 샘플링되었다는 이유로 법적 분쟁이 끊이지 않는다. 일부 예술가들은 디퓨전 모델이 보다 투명하게 작동해야 한다고 주장한다. 예컨대 AI가 제작한 특정 곡이 4분의 3은 데이비드 보위(David Bowie)로부터, 4분의 1은 루 리드(Lou Reed)로부터 영감을 받았다는 사실을 명확히 알 수 있어야 한다는 것이다. 우디오는 이러한 투명성을 구현하기 위한 연구가 진행 중이라고 밝혔지만, 현재로서는 이를 실현할 수 있는 기술은 존재하지 않는 상황이다.

산체스는 “위대한 예술가의 작품에는 언제나 새로움과 영향력이 결합되어 있다”며 “이러한 원리는 AI 기술에서도 그대로 적용된다고 생각한다”고 설명했다.

그러나 인간의 신경망과 인공지능을 동일 선상에 놓고 비교하려는 시도는 많은 분야에서 곧 한계에 부딪힌다. 브랜트 교수는 인간의 창의성이 기계보다 훨씬 뛰어난 영역으로 ‘이상 현상의 증폭(amplifying the anomaly)’을 꼽는다. AI 모델은 통계적 샘플링에 기반으로 작동하며, 예외를 부각하기보다는 오류를 줄이고 확률적으로 가능한 패턴을 찾아내는 데 초점을 맞춘다. 반면 인간은 ‘특이한 것’에 본능적으로 이끌린다. 브랜트 교수는 “기묘한 요소는 단순히 이상치나 일회성 사건으로 치부되지 않고, 오히려 창작물 전반에 스며든다”고 적었다.

브랜트 교수는 베토벤이 교향곡 8번 마지막 악장에서 불협화음의 이질적인 음 하나를 추가한 것을 예로 들며 설명했다. 그는 “베토벤은 여기에서 멈출 수도 있었지만, 그것을 단순한 예외로 간주하지 않고 이후에도 다양한 방식으로 이 이질적인 요소를 반복해서 참조한다”며 “일시적인 일탈을 작품 전반에 걸쳐 확대하고, 그 영향을 오히려 극대화했다”고 말했다.

이와 같은 ‘이상 현상’은 비틀스의 후기 음반에 등장하는 역방향 루프 샘플링, 프랭크 오션(Frank Ocean)의 피치를 높인 보컬, 찰리 푸스(Charlie Puth)와 같은 아티스트나 빌리 아일리시(Billie Eilish)의 프로듀서 피니어스 오코넬(Finneas O’Connell)이 횡단보도 신호음, 문 닫는 소리 같은 ‘주변 환경 소리(found sounds)’를 활용한 사례에서도 찾아볼 수 있다.

창의적인 결과물이 본질적으로 ‘새롭고 유용해야 한다’는 기준이 여전히 유효하다면, 브랜트 교수의 해석은 AI가 유용성에서는 인간과 어깨를 나란히 할 수 있을지 몰라도, 새로움이라는 기준에서는 여전히 인간이 우위에 있다는 점을 시사한다.

이 주장이 타당성을 직접 확인해 보기 위해 필자는 며칠간 우디오의 모델을 직접 사용해 봤다. 모델이 30초 분량의 샘플을 생성하는 데는 1~2분 정도가 소요되며, 유료 버전을 이용하면 전체 곡도 만들 수 있다. 필자는 12개 장르를 선택해 장르별로 곡을 하나씩 생성한 뒤, 사람이 만든 유사한 곡을 찾아 비교했다. 이후 이 곡들을 활용해 퀴즈를 만들고 뉴스룸의 동료들에게 어떤 곡이 AI가 만든 것인지 맞혀보도록 했다.

참가자들의 평균 정답률은 46%에 그쳤다. 특히 기악 장르에서는 AI가 만든 음악을 사람의 작품으로 착각한 경우가 더 많았다. 흥미로운 점은 테스트에 참여한 이들이 ‘가짜처럼 들리는 악기 연주’나 ‘어색한 가사’ 같은 특정 단서를 바탕으로 AI 곡을 판별하려 시도한 경우, 대부분 실패했다는 것이다. 익숙하지 않은 장르에서는 더욱 고전했다. 어떤 사람은 컨트리나 소울 장르에서는 비교적 정확히 맞혔지만, 재즈나 클래식 피아노, 팝에서는 전혀 구분하지 못했다. 창의성 연구자인 비티 박사는 66%의 정답률을 기록했고, 작곡가 브랜트 교수는 오케스트라와 피아노 소나타 항목에서는 정답을 맞혔지만, 전체 정답률은 50%에 불과했다.

물론 이 결과물의 공을 전적으로 AI 모델에 돌릴 수는 없다. 이 곡들은 모델이 학습한 수많은 인간의 창작물이 없었다면 제작될 수 없었기 때문이다. 그럼에도 불구하고 모델은 단 몇 개의 프롬프트만으로도 기계가 만든 것이라고는 인식하지 못할 정도로 자연스러운 곡들을 만들어냈다. 일부 곡은 실제 파티에서 틀어도 아무도 이상하게 여기지 않을 만큼 무난했고, 필자 역시 평생 음악을 해 온 사람이자 까다로운 취향의 음악 애호가로서 두 곡에 깊은 감명을 받기도 했다.

그러나 ‘현실감’과 ‘독창성’은 분명히 다르다. 이 곡들은 기묘한 요소나 변칙이 이끌어가는 느낌이 없었고, 베토벤의 ‘점프 스케어(jump scare)’ 같은 충격도 없었다. 장르의 경계를 넘나들거나 테마 간의 과감한 전환도 느껴지지 않았다. 그래서 일부 동료들은 테스트 중 어떤 곡이 AI가 만든 것인지, 아니면 단순히 완성도가 낮은 인간의 작품인지를 헷갈려하기도 했다.

결국 이 문제가 얼마나 중요한지는 시간이 말해줄 것이다. 법원은 AI 음악이 복제인지 창작인지, 그리고 그 과정에서 아티스트가 어떤 방식으로 보상받아야 하는지를 판단하게 될 것이다. 그러나 문화적 가치는 법이 아닌 우리 청취자들이 결정하게 된다. 우리는 노래를 즐기기 위해, 그 뒤에 경험과 포부, 철학을 가진 인간 창작자의 존재를 떠올릴 필요가 있을까? 만약 어떤 곡이 AI가 만든 것이라는 사실을 알게 되는 순간, 그 곡의 위대함은 사라지는 걸까?

이에 대해 산체스는 “사람들이 누가 음악을 만들었는지 궁금해하는 것은 당연한 일”고 인정하면서도 “결국 사람이나 AI가 얼마나 관여했는지와는 별개로 모든 곡은 예술로 받아들여질 것이며, 사람들은 그 작품의 미적 완성도를 기준으로 반응하게 될 것”이라고 말했다.

그러나 필자가 실험에서 본 풍경은 사뭇 달랐다. 듣고 있는 곡을 누가 만들었는지에 대한 질문은 사람들에게 실제로 매우 중요한 듯 보였다. 일부 참가자들은 컴퓨터 모델이 만든 음악을 즐긴다는 사실 자체에 강한 거부감을 드러냈다. 예를 들어 한 동료는 일렉트로팝 곡이 흘러나오자 무의식적으로 고개를 끄덕이기 시작했지만, 이내 의심스러운 표정을 지었다. 마치 이 곡의 작곡가가 기계가 아니라 사람이길 바라는 듯한 모습이었다. 그녀는 “제발 이 곡이 AI가 만든 게 아니었으면 좋겠다”고 말했지만, 안타깝게도 그 곡은 AI가 만든 것이었다.

The post 창작의 경계를 허무는 AI 음악 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.