기대와 현실 사이…전환점 맞이한 생성형 AI 열풍

챗GPT 등장 이후 3년이 지난 지금, 생성형 AI는 전환점을 맞이하고 있다. GPT-5는 기대를 밑돌았고, 기업의 95%는 AI 도입을 통해 뚜렷한 성과를 내지 못하고 있다. 이러한 상황 속에서 생성형 AI를 둘러싼 ‘거품’ 우려도 제기되고 있지만, 지금은 오히려 이 신기술에 대한 기대치를 조정하고 현실적으로 평가해야 할 시점이다.

2022년 말 오픈AI가 무료 웹 애플리케이션 ‘챗GPT’를 공개하면서 기술 업계의 흐름은 순식간에 바뀌었다. 대화형 AI가 선보인 새로운 경험은 사람들의 일상 속으로 빠르게 스며들었고, 그 여파는 업계를 넘어 여러 나라의 경제 전반으로 퍼져 나갔다. 컴퓨터와 자연스럽게 대화를 나눌 수 있다는 사실은 대중의 기대를 단숨에 끌어올렸다.

이후 기술 기업들은 뒤처지지 않기 위해 앞다퉈 신제품을 선보였다. 음성, 이미지, 영상 기능을 결합한 모델들이 잇달아 등장했고, AI 기업들은 발표 때마다 또 하나의 ‘중대한 혁신’을 이뤘다고 강조했다. 지지자들은 전년 모델과 비교한 그래프를 내세우며 기술 발전이 기하급수적으로 이뤄지고 있다고 주장했고, 생성형 AI가 거의 모든 영역을 재편할 것이라는 기대가 자연스럽게 확산됐다.

그러나 2025년에 접어들면서 분위기는 조금씩 달라지기 시작했다. 주요 AI 기업 수장들이 약속한 미래는 현실과 간극이 컸다. 그들은 생성형 AI가 사무직 업무를 대체하고, 풍요의 시대를 열고, 과학적 발견의 속도를 앞당기며, 새로운 치료법 개발에도 기여할 것이라고 강조해 왔다. 선진국이 모여 있는 북반구 중심으로 퍼진 ‘포모(FOMO)’, 즉 뒤처지는 것에 대한 두려움은 많은 CEO들이 기존 전략을 접고 AI 경쟁에 뛰어들도록 만들었다.

하지만 그 시점부터 생성형 AI의 광택은 서서히 바래기 시작했다. 오랫동안 방치된 업무 프로세스를 혁신하고 비용을 절감하는 만능 도구처럼 소개됐지만, 올해 발표된 여러 연구에 따르면 기업들은 AI 기술을 기대만큼 활용하지 못하고 있었다. 미국 인구조사국와 스탠퍼드대학교 등 여러 기관에서 진행한 조사 역시 기업들의 AI 도입이 정체된 현실을 보여주었다.

실제로 많은 기업에서 AI 도입을 시도했지만 상당수가 시험 단계에서 멈춘 채 진전을 내지 못하고 있다. 경제 전반의 폭넓은 확산이 뒤따르지 않는다면 주요 AI 기업이 지금까지 경쟁에 쏟아부은 막대한 비용을 회수할 수 있을지 역시 불투명하다.

동시에 핵심 기술의 발전도 더 이상 이전처럼 뚜렷한 도약을 보여주지 못하고 있다. 그 대표적 사례가 지난 8월 공개된 ‘GPT-5’였다. 이번 AI 붐을 촉발하고 장기간 그 위세를 유지해 온 오픈AI가 차세대 모델을 내놓는 순간이었다. 오픈AI는 수개월 동안 GPT-5를 대대적으로 홍보했다. 이 회사의 샘 올트먼 CEO는 “어떤 분야든 박사 수준의 전문가가 될 것”이라고 강조했고, 별다른 설명 없이 영화 <스타워즈> 시리즈에 등장하는 은하 제국의 초대형 우주 무기인 ‘데스 스타(Death Star)’ 이미지를 올려 ‘궁극의 능력’을 암시하는 메시지를 남기기도 했다.

그러나 공개 직후 반응은 전혀 달랐다. GPT-5는 기대와 달리 이전 세대와의 차이가 뚜렷하지 않았고, 이는 챗GPT 등장 이후 처음으로 AI에 대한 시선이 크게 변하는 계기가 됐다. 야닉 킬처(Yannic Kilcher) AI 연구자 겸 인기 유튜버는 출시 이틀 뒤 공개한 영상에서 “경계를 무너뜨리는 기술적 도약은 끝났다”며 “범용인공지능(AGI)은 오지 않을 것이고, 이제 (새로운 혁신 없이) 대형언어모델(LLM)의 ‘삼성 갤럭시(처럼 점진적인 개선 단계에 머무는) 시대’에 들어섰다”고 말했다.

이후 많은 이들이 스마트폰을 비유로 들었다. 한때 스마트폰은 가장 흥미로운 소비자 기술이었지만 지금은 애플이나 삼성의 신제품도 예전만큼 주목을 받지 못한다. 열성적인 사용자들이 세부 기능을 꼼꼼히 살피지만, 대부분의 사람들에게 올해 아이폰은 지난해 아이폰과 크게 다르지 않다. 그렇다면 생성형 AI도 비슷한 국면에 들어선 것일까. 그렇다고 해서 이것이 곧 문제라고 볼 수 있을까. 스마트폰이 일상이 된 뒤에도 세상을 바꿨다는 점을 떠올리면 쉽게 단정하기 어렵다.

물론 지난 몇 년 동안은 분명 ‘놀라움’의 순간이 이어졌다. 영상 생성 모델의 품질이 비약적으로 좋아지고, 추론 모델의 문제 해결 능력이 눈에 띄게 향상됐으며, 최신 코딩과 수학 모델이 세계 대회에서 두드러진 성과를 내는 등 빠른 진전이 있었다. 그러나 이러한 놀라운 기술의 역사는 아직 몇 년밖에 되지 않았고 여전히 실험적 성격이 강하다. 성과가 드러나는 만큼 한계 역시 뚜렷하게 나타난다.

어쩌면 지금이 기대치를 다시 조정해야 할 시점인지도 모른다.

과열된 기대를 조정해야 할 때

여기서 한 가지 유의할 점이 있다. 과도한 기대에서 과도한 실망으로 흔들리는 반작용은 언제든 지나치기 쉽다. 기술이 과하게 포장됐다는 이유만으로 이 분야 전체를 폄하하는 것은 성급한 판단이다. AI가 기대만큼 성과를 내지 못한다고 해서 곧바로 ‘기술 발전이 벽에 부딪혔다’고 단정하는 것도 기술 연구와 혁신이 실제로 어떻게 작동하는지에 대한 오해에서 비롯된 주장이다. 기술 발전은 언제나 불규칙하게 이어져 왔고, 때로는 우회하고 때로는 뚫고 지나가며 다양한 방식으로 전진해 왔다.

GPT-5 출시를 약간의 거리를 두고 바라보면 상황은 또 다르게 보인다. GPT-5는 오픈AI가 그 직전 몇 달 동안 연달아 선보인 인상적인 모델 시리즈의 연장선에 있었다. 업계에 전혀 새로운 패러다임을 제시한 첫 추론 모델 o1과 o3, 그리고 영상 생성의 기준을 다시 끌어올린 소라 2(Sora 2) 등이 그 예이다. 이런 흐름을 단순히 ‘정체’로 보기는 어렵다.

AI는 여전히 뛰어난 잠재력을 보여주고 있다. 구글 딥마인드의 이미지 생성 모델 ‘나노 바나나 프로(Nano Banana Pro)’는 책 한 챕터를 인포그래픽으로 변환하는 등 다양한 기능을 구현한다. 게다가 별도의 비용 없이 휴대전화에서 바로 사용할 수 있다는 점은 더욱 인상적이다.

그럼에도 질문은 남는다. 놀라움이 잦아든 지금 이 기술은 결국 무엇을 남길까. 1년 뒤 혹은 5년 뒤 우리는 이 기술을 어떻게 평가할까. 막대한 비용과 환경적 부담을 감수할 만큼의 가치가 있었다고 판단하게 될까.

이러한 물음을 염두에 두고 2025년 말 AI의 현주소를 바라볼 수 있는 네 가지 관점을 제시한다. 지금은 과도한 기대를 조정하는 과정의 초입에 선 시점이다.

01. 대형언어모델이 전부는 아니다

어느 측면에서 보면 조정이 필요한 대상은 AI 자체가 아니라 LLM에 대한 과도한 기대일지도 모른다. LLM이 인간의 모든 인지 작업을 수행할 수 있다는 가설적 기술 즉 ‘AGI’에 이르는 관문이 아니라는 점은 점차 분명해지고 있다.

일리야 수츠케버(Ilya Sutskever) 전 오픈AI 공동 창업자 겸 수석 과학자는 현재 AI 스타트업 세이프 슈퍼인텔리전스(Safe Superintelligence)를 이끌고 있다. AGI를 적극 지지해 온 인물이지만 최근에는 자신이 개발에 깊이 관여했던 LLM의 한계를 반복해서 강조하고 있다. 그는 지난해 11월 미국 팟캐스트 드와르케시 파텔(Dwarkesh Patel)과의 인터뷰에서 “LLM은 다양한 개별 작업을 수행하는 능력은 탁월하지만 그 작업들의 기반이 되는 원리를 학습하지는 못한다”고 설명했다.

이는 1,000가지 방정식을 푸는 법을 익히는 것과 어떤 방정식이든 풀 수 있는 원리를 이해하는 것의 차이에 비유할 수 있다. 수츠케버는 “이 모델들이 인간에 비해 일반화 능력이 현저히 떨어진다는 점이 가장 근본적인 문제”라고 말했다.

LLM이 무엇이든 해낼 수 있을 것처럼 오해하기 쉬운 이유는 이 기술의 언어 사용 방식이 워낙 그럴듯하기 때문이다. 사람의 말투와 글쓰기를 모방하는 능력은 놀라울 만큼 정교하다. 인간은 특정한 방식으로 행동하는 대상에게 본능적으로 지능을 부여하는 경향이 있어, 실제로 지능이 있든 없든 그 안에 사고 과정이 존재한다고 받아들이기 쉽다. 다시 말해 우리는 인간과 비슷하게 반응하는 기계를 만들었고, 자연스레 그 뒤에 인간과 닮은 ‘생각하는 주체’가 있다고 해석한다.

그런 반응 자체는 이해할 만하다. LLM이 대중의 일상 속에 들어온 지는 몇 년밖에 되지 않았기 때문이다. 그러나 그동안 업계는 기술의 실제 능력이 충분히 파악되지 않은 상태를 마케팅에 활용하며 기대감을 지나치게 부풀렸고 과열된 분위기를 조장했다. 기술을 일상에서 직접 사용하며 더 깊이 이해하게 되면 이러한 기대는 자연스럽게 현실적인 수준으로 조정될 것이다.

02. AI는 만능 해결사가 아니다

지난 7월 매사추세츠 공과대학(MIT) 연구진이 발표한 한 논문은 최근 퍼지고 있는 AI 회의론의 주요 근거가 됐다. 연구 결과만 보면 AI를 도입한 기업의 95퍼센트가 아무런 효과를 보지 못했다고 결론 내렸다.

비슷한 흐름은 다른 연구에서도 나타난다. 지난 11월 프리랜서를 위한 온라인 플랫폼을 운영하는 업워크(Upwork) 연구진은 오픈AI, 구글 딥마인드, 앤트로픽의 LLM 기반 에이전트들이 기본적인 작업조차 스스로 해결하지 못하는 경우가 많았다고 밝혔다.

이러한 결과는 올트먼이 올 초 개인 블로그에서 밝힌 전망과는 큰 차이가 있다. 그는 “2025년에는 첫 AI 에이전트가 노동시장에 합류해 기업의 생산성을 크게 바꿔놓을 것”이라고 전망한 바 있다.

그러나 MIT 연구에는 몇 가지 간과된 부분이 있다. 연구진이 평가한 ‘성공’의 기준이 지나치게 협소했다는 점이다. 95퍼센트의 실패율은 기업이 자체 AI 시스템을 시범 도입한 후 6개월이 지나도록 시험 단계를 넘어서지 못한 사례를 모두 포함한 수치이다. 실험적 기술을 바탕으로 한 프로젝트가 단기간에 성과를 내지 못하는 것은 그리 놀라운 일이 아니다.

또 이 수치는 공식적인 파일럿 프로그램 외부에서 직원들이 개인 계정을 통해 LLM을 활용하는 경우는 전혀 반영하지 않았다. MIT 연구진에 따르면 조사 대상 기업의 약 90퍼센트에서 직원들이 개인 챗봇 계정을 사용해 업무를 처리하는 이른바 ‘그림자 AI 경제’가 존재했지만, 이러한 비공식적 활용이 실제로 어떤 가치를 창출하는지는 측정되지 않았다.

업워크 연구는 에이전트가 숙련된 사람과 함께 작업할 때 성공률이 크게 높아진다는 점도 확인했다. 이는 많은 이들이 AI를 업무에 어떻게 활용할 수 있을지 스스로 실험하고 있다는 뜻이기도 하다.

이 결과는 최근 전문가들이 지적한 흐름과도 일치한다. AI로 자연어 프롬프트를 입력해 코드를 생성하는 ‘바이브 코딩’이라는 용어를 만든 안드레 카파시(Andrej Karpathy) AI 연구자 겸 인플루언서는 “챗봇은 법률 자문, 버그 수정, 고등학교 수준의 수학 문제 풀이 등 여러 분야에서 평균적인 사람보다 뛰어나지만 전문가보다는 뒤처지는 경우가 많다”고 지적했다. 그는 “이런 이유로 챗봇이 일반 이용자에게는 일상적인 질문과 과제 해결에 큰 도움을 주며 인기를 얻었지만, 경제 전체를 뒤흔드는 변화로 이어지지 않은 것”이라고 설명한다. 경제의 구조적 변화를 이끌려면 숙련된 직원을 능가하는 성능이 필요하기 때문이다.

물론 이 상황이 앞으로 달라질 가능성은 충분하다. 다만 지금까지의 흐름만 놓고 보면 AI가 예상만큼 일자리에 큰 충격을 주지 못한 것이 그리 놀라운 일은 아니다. AI는 만능 해결책이 아니며 인간을 단숨에 대체할 수도 없다. 그렇다고 할 일이 없는 것도 아니다. AI가 일상의 업무 흐름과 기업 운영 체계에 어떤 방식으로 통합될 수 있을지는 이제 막 실험이 시작된 단계이다.

03. AI 거품 논쟁, 현재의 좌표는?

AI가 거품이라면 2008년 서브프라임 모기지 거품이나 2000년 닷컴 거품과 비슷한 양상일까. 하지만 둘은 분명한 차이가 있다.

서브프라임 거품은 금융 시스템의 상당 부분을 무너뜨렸다. 거품이 꺼진 뒤 남은 것은 막대한 부채와 과대평가된 부동산뿐이었다. 반면 닷컴 거품은 수많은 기업을 사라지게 했고 그 충격은 전 세계로 번졌지만, 인터넷이라는 핵심 기반은 남았다. 국제적 케이블망과 구글, 아마존 같은 몇몇 스타트업은 이후 거대 기술 기업으로 성장했다.

지금의 AI 거품은 이 어느 쪽과도 성격이 다를 수 있다. 현재 LLM에는 뚜렷한 비즈니스 모델이 없다. 결정적인 전환점이 될 ‘킬러 앱’이 무엇인지도 아직 알 수 없다. 어쩌면 그런 것이 끝내 등장하지 않을 가능성도 있다.

경제학자들이 우려하는 이유도 여기에 있다. AI 성능을 향상시키고 예측되는 수요를 감당하기 위해 투입되는 인프라 자본 규모가 전례 없이 크기 때문이다. 이런 상황에서 예상한 수요가 실현되지 않는다면 어떤 결과가 나타날까. 엔비디아가 오픈AI에 투자하고, 오픈AI가 다시 그 자금으로 엔비디아 칩을 구매하는 식의 독특한 순환 구조 역시 불확실성을 키운다. 전문가들 사이에서 전망이 엇갈리는 이유가 바로 이 때문이다.

낙관적인 시각도 존재한다. 지난 11월 국제 사모펀드 실버레이크 파트너스(Silver Lake Partners)를 공동 창업한 글렌 허친스(Glenn Hutchins)는 팟캐스트 테크놀로지 비즈니스 프로그래밍 네트워크(Technology Business Programming Network)와의 인터뷰에서 “걱정할 이유가 별로 없다”고 말했다. 그는 “대부분의 데이터센터에는 해당 시설이 생산하는 모든 출력물을 사겠다고 계약한 지급 능력 있는 고객이 이미 존재한다”고 설명했다. 다시 말해 ‘짓기만 하면 고객이 올 것’이라는 기대가 아니라 애초에 고객이 확보된 상태라는 의미다.

허친스는 “특히 그 고객 가운데 가장 큰 축이 마이크로소프트”라고 설명했다. 그는 이어 “마이크로소프트는 세계에서 가장 높은 신용등급을 가진 기업”이라며 “데이터센터 출력물 공급 계약을 맺었다면 사티아 나델라(Satya Nadella) 마이크로소프트 CEO는 그 약속을 반드시 지킬 것”이라고 덧붙였다.

현재 많은 CEO들은 닷컴 거품을 떠올리며 당시의 교훈을 되새기고 있다. 그 시절 파산한 기업들은 버텨낼 자금이 부족했다. 반대로 폭락을 견딘 기업들은 시간이 지나며 크게 성장했다. 이 교훈을 염두에 둔 오늘날의 AI 기업들은 거품인지 아닌지 판단조차 어려운 상황에서도 경주에서 이탈하지 않으려 애쓰고 있다. 하지만 이러한 선택은 큰 리스크를 동반한다.

또 다른 교훈도 있다. 처음에는 주변부처럼 보였던 기업이 순식간에 기업가치가 10억 달러가 넘는 유니콘으로 성장하는 사례가 적지 않다는 점이다. 기업용 아바타 생성 도구를 개발하는 신세시아(Synthesia)가 대표적이다. 벤처캐피털 기업 에어 스트리트 캐피털(Air Street Capital)의 네이선 베나이치(Nathan Benaich) 공동 창업자는 “몇 년 전 딥페이크 논란이 한창일 때만 해도 신세시아의 정체성과 시장성을 의심했었다”고 말했다. 그는 “입 모양 맞추기나 음성 복제를 누가 돈을 내고 쓰겠느냐는 생각이 들었다”고 회상했다. 그러나 결과는 완전히 달랐다. 실제로 비용을 기꺼이 지불할 고객이 상당히 많았던 것이다.

현재 신세시아는 약 5만 5,000여 기업 고객을 보유하고 있으며 연간 약 1억 5,000만 달러(약 2,200억 원)의 매출을 올린다. 지난 10월 이 회사의 기업 가치는 약 40억 달러(약 5.9조 원)로 평가됐다.

04. 챗GPT는 시작도, 끝도 아니다

챗GPT는 현대 AI를 떠받치는 딥러닝 기술이 지난 10여 년 동안 축적해 온 발전이 한 지점에서 응축된 결과라고 할 수 있다. 딥러닝의 씨앗은 1980년대까지 거슬러 올라가며 그 뿌리는 최소 1950년대에 이른다. 이런 흐름을 고려하면 생성형 AI의 진전은 아직 출발점에 가깝다고 볼 수 있다.

연구 열기도 그 어느 때보다 뜨겁다. 세계 주요 AI 학회에는 이전보다 훨씬 많은 양질의 연구가 제출되고 있으며, 일부 학회는 제출 급증으로 인해 심사를 통과한 논문조차 모두 수용하지 못하는 상황에 놓였다. 동시에 다양한 분야의 논문이 정식 출판 전 공유되는 아카이브(arXiv) 같은 서버는 AI가 생성한 저품질 연구물로 넘쳐나고 있다.

수츠케버는 드와르케시 팟캐스트 인터뷰에서 “LLM이 맞닥뜨린 현재의 병목 현상은 다시 연구 중심의 시대가 돌아왔다는 뜻”이라며 “이는 후퇴가 아니라 새로운 국면의 시작”이라고 설명했다.

베나이치는 “과도한 기대를 부추기는 사람들이 늘 있기 마련이다”라고 말하면서도 “이러한 과열 분위기가 오히려 필요한 자본과 인재를 끌어들이는 역할을 한다”고 강조했다. 그는 “불과 2~3년 전만 해도 이 모델을 만든 사람들은 어떻게 우연히 작동 원리를 발견한 ‘연구 괴짜’에 가까웠다”며 “지금은 기술 분야에서 실력을 갖춘 사람들이라면 누구나 이 분야로 몰리고 있다”고 설명했다.

AI의 향후 경로

지나친 기대는 값비싼 신기술을 팔기 위한 기업들의 전략에서 비롯된 것만은 아니다. 기계가 읽고, 쓰고, 생각할 수 있다는 믿음은 업계 안팎에 폭넓게 자리 잡아 왔다. 오래전부터 이어져 온 대담한 꿈이기도 하다.

하지만 이런 과열된 기대는 오래 지속될 수 없었고, 어쩌면 그게 더 나은 일일지도 모른다. 이제야 우리는 이 기술을 있는 그대로 바라보고, 무엇을 잘하고 무엇을 못하는지 가늠하며, 어디에 어떻게 활용할 수 있을지 탐색할 기회를 얻었다. 베나이치는 “우리는 여전히 정보와 기술이 뒤섞인 이 고차원적 모델에서 원하는 행동을 어떻게 유도할지 알아가는 단계에 있다”고 설명했다.

기대의 하향 조정은 오히려 필요했던 변화이다. 그렇다고 AI가 어디론가 사라지는 일은 없다. 지금까지 우리가 만든 기술의 실체조차 온전히 이해하지 못하고 있는 상황인만큼, 다음 단계가 무엇일지는 여전히 미지수로 남아있다.

The post 기대와 현실 사이…전환점 맞이한 생성형 AI 열풍 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.