베일 벗은 GPT-5…기술적 진전 불구 AGI는 아직 요원

오랜 기다림 끝에 GPT-5가 공개됐다. 이번 업데이트는 챗GPT의 사용자 경험을 여러 면에서 개선했지만 오픈AI가 강조하던 AGI 실현까지는 아직 많은 과제가 남아 있다.

오픈AI가 차세대 인공지능 모델 GPT-5를 공식 출시했다. 신형 GPT-5는 기존에 분리 운영되던 플래그십 모델과 추론 기능이 특화된 o 시리즈 모델의 구분을 없앴다. 대신, 사용자가 요청을 입력하면 시스템이 자동으로 빠른 비추론 모델 또는 속도는 느리지만 정교한 추론이 가능한 모델 중 하나를 선택해 응답을 생성한다. GPT-5는 현재 챗GPT 웹 인터페이스를 통해 전 세계 사용자에게 제공되고 있다. 다만, 무료 이용자의 경우 새로운 기능에 대한 전면 접근까지는 며칠이 소요될 수 있다고 회사 측은 밝혔다.

얼핏 보기에 GPT-5는 GPT-4의 후속 모델처럼 느껴진다. 하지만 이 모델을 제대로 이해하려면 지난해 출시된 첫 추론 모델 o1과 비교하는 것이 더 도움이 될 것이다. GPT-5가 출시와 동시에 일반 대중에게 공개된 반면, o1은 초반에 플러스(Plus)와 팀(Team) 요금제 구독자만 사용할 수 있었다. 이들은 최종 응답을 내놓기 전에 추가 텍스트를 생성해 자신의 답변을 스스로 ‘추론’하고 비추론 모델에 비해 훨씬 더 까다로운 문제를 풀 수 있는 완전히 새로운 유형의 언어 모델을 경험했다.

o1이 중대한 기술적 혁신이었다면, GPT-5는 제품의 완성도를 높인 개선에 가깝다. 언론 브리핑에서 샘 올트먼 오픈AI CEO는 GPT-5를 과거 해상도를 획기적으로 개선했던 애플의 레티나(Retina) 디스플레이에 비유했는데, 이는 본래 의도한 바와 다소 차이가 있더라도 적절한 비교다. GPT-5는 역대 가장 선명한 화면처럼 더욱 쾌적하고 매끄러운 사용자 경험을 제공할 것이다.

단, 이는 의미 있는 진전이지만, 올트먼이 지난 1년간 강조해 온 소위 ‘미래를 근본적으로 바꿀 AI’와는 거리가 있다. 브리핑에서 올트먼은 GPT-5를 “범용인공지능(AGI)으로 넘어가는 여정의 중요한 이정표”라고 표현했지만, 그러한 방향성에 부합한다 하더라도 이는 매우 작은 발걸음에 불과하다.

MIT 테크놀로지 리뷰는 모델 정식 출시 전에 오픈AI가 선보인 시연을 통해 GPT-5의 성능을 확인할 수 있었다. 얀 뒤부아(Yann Dubois) 오픈AI의 사후 학습 책임자는 GPT-5에 자신의 파트너가 가족과 원활하게 소통할 수 있도록 프랑스어 학습용 웹 애플리케이션을 설계해 달라고 요청했다. GPT-5는 그의 지시에 충실히 따르며 매력적이고 사용자 친화적인 앱을 만들었다. 하지만 필자가 GPT-4o에 거의 동일한 프롬프트를 입력하자 기능이 동일한 앱이 생성되었다. 단지 시각적 완성도 면에서 GPT-5가 더 뛰어났을 뿐이다.

물론 새로운 모델에는 사용자 경험과 관련해 실질적인 개선 사항도 포함되어 있다. 사용자가 직접 선택하지 않아도 질문마다 추론 기능을 적용할지 자동으로 결정하는 기능은 특히 LLM 기술에 익숙하지 않은 사용자에게 커다란 편의성을 제공한다.

올트먼에 따르면 GPT-5는 o 시리즈 모델보다 추론 속도가 훨씬 빠르다. 또한 이 모델을 무료 사용자에게까지 공개하는 방침은 운영 비용 역시 더 낮아졌음을 암시한다. 이는 중요한 부분이다. 성능이 뛰어난 AI 모델을 더 빠르고 저렴하게 운영하는 것은 쉽지 않은 문제이며, 이를 해결할 경우 AI가 환경에 미치는 영향을 효과적으로 낮출 수 있기 때문이다.

오픈AI는 끊임없이 한계로 지적되어 온 ‘환각(hallucination)’ 문제에 대해서도 조치를 취했다. 오픈AI의 자체 평가에 따르면 GPT-5 모델은 이전 모델인 o3와 GPT-4o에 비해 잘못된 주장을 할 가능성이 현저히 줄었다. 이러한 개선 사항이 입증된다면 더욱 안정적이고 신뢰할 수 있는 AI 에이전트를 개발하는 데 도움이 될 것이다. 돈 송(Dawn Song) 캘리포니아 대학교 버클리 캠퍼스 컴퓨터과학 교수는 “환각은 실제로 안전 및 보안 문제를 유발할 수 있다”고 말했다. 예를 들어, AI 모델이 환각 현상으로 가짜 소프트웨어 패키지를 만들어내면 이를 실행하는 에이전트가 사용자의 기기에 악성 코드를 설치할 위험이 있다

GPT-5는 에이전트 능력 평가 테스트와 AI 모델의 코딩 능력을 평가하는 SWE-벤치(SWE-Bench) 및 에이더 폴리글롯(Aider Polyglot) 등 여러 벤치마크에서 최고 수준의 결과를 기록했다. 하지만 클레망틴 푸리에(Clémentine Fourrier) 허깅페이스(HuggingFace) AI 연구원은 “해당 평가들이 이미 거의 포화 상태에 이르렀다”고 설명했다. 즉, 최신 모델들의 성능이 사실상 최대 수준에 근접했다는 것이다.

그녀는 “이는 마치 고등학생이 중학생 수준의 문제를 푸는 것과 같다”며 “고등학생이 문제를 맞히지 못한다면 시사하는 바가 있지만, 맞힌다고 해서 특별한 의미가 있는 것은 아니다”라고 말했다. 푸리에는 SWE-벤치 테스트에서 80~85% 점수를 받으면 놀랄 만한 수준이라고 말했지만 GPT-5의 점수는 74.9%에 그쳤다.

결국 오픈AI가 강조하는 가장 큰 성과는 GPT-5가 사용자에게 더 나은 경험을 제공한다는 점이다. 챗GPT 책임자 닉 터리(Nick Turley)는 “이번 모델은 매우 우수한 사용 경험을 선사하며, 이는 특히 AI에 대해 잘 알지 못하는 일반 사용자들이 분명히 체감할 수 있을 것”이라고 설명했다.

하지만 단순한 사용자 경험 개선만으로는 올트먼이 약속한 자동화된 미래를 실현하기 어렵다. 추론 기능은 AGI를 향한 중요한 도약이었지만, 우리는 아직 그다음 단계의 혁신을 기다리고 있다.

The post 베일 벗은 GPT-5…기술적 진전 불구 AGI는 아직 요원 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.