AWS·구글·AMD가 설계한 ‘포스트 GPU’ 시대

AI 인프라 경쟁의 기준이 달라지고 있다. 구글의 차세대 TPU ‘아이언우드’는 연산 성능 중심의 GPU 설계를 넘어, 메모리와 데이터 이동, 시스템 구조를 핵심으로 한 새로운 칩 설계 방향을 보여준다.

엔비디아의 기세가 무섭다. 차세대 GPU ‘루빈’을 발표하며 AI 인프라 전체를 통째로 장악하겠다는 야심을 숨기지 않는다. 하지만 이 압도적인 기세 속에서도 구글, 아마존, AMD 같은 빅테크 기업들은 의외로 차분하다. 그들은 왜 ‘GPU 왕좌’를 뺏으려 하지 않는 것일까?

현재 GPU가 비싸고 전기를 많이 먹을수록, 오히려 그들에게 유리한 ‘새로운 판’이 깔리고 있다. 현재 벌어지는 AI 인프라 전쟁은 더 이상 누가 더 빠른 칩을 만드느냐의 경쟁이 아니다. 바로 “AI를 산업 규모로 유지할 수 있는 경제적인 방법은 무엇인가?”라는 근본적인 질문에 대한 생존의 문제다. “GPU 없는 AI”는 과연 가능할까? 절대 무너지지 않을 것 같던 엔비디아의 성벽 밖에서, 빅테크들이 조용히 설계 중인 AI의 미래를 들여다보았다. 이들이 선택한 각기 다른 길은 앞으로 10년, 우리 인공지능 세상을 어떻게 바꿔놓을까?

성능 대신 ‘계산기’를 두드리는 AWS의 실용주의

AWS의 행보는 엔비디아에 대한 선전포고라고 하기보다, 철저하게 실용적인 ‘계산(Compute)’에서 시작한다. 그들은 “GPU가 쓸모없다”고 말하는 대신 기업들에게 도발적인 질문을 던진다. “막대한 비용을 내는 만큼, GPU가 정말 그만한 가치를 돌려주고 있는가?” AWS의 차세대 칩인 ‘트레이니엄3 (Trainium3)’는 엔비디아의 플래그십 GPU를 성능 지표에서 이기기 위해 태어난 칩이 아니다. 이들의 목표는 오직 하나, 클라우드 환경에서 ‘가격 대비 성능’과 ‘전력 효율’을 극대화하여 전체 운영 비용(TCO)을 줄이는 것이다. 쉽게 말해, 같은 돈과 전력으로 더 많은 AI 작업을 처리하는 것, 즉 AI를 운영하는 데 드는 전체 비용을 낮추는 것이 목표다. 대부분의 기업 AI 서비스는 최첨단 연구가 아니라 상시 운영되는 추론과 반복적인 재학습에서 비용이 발생한다. AWS는 바로 이 ‘실전 지점’을 정확히 공략했다.

2025년 말 공개된 트레이니엄3는 단순한 업그레이드를 넘어 GPU 중심 컴퓨팅에 대한 실질적인 대안을 제시했다. 3나노미터(nm) 미세 공정을 기반으로 설계된 이 칩은 AI 학습에 최적화된 주문형 반도체(ASIC, Application-Specific Integrated Circuit)이다. 최신 고대역폭 메모리(HBM3E)를 탑재해 이전 세대보다 데이터 처리 통로를 4배나 넓혔다. 이 같은 구조는 초거대 언어 모델이 데이터를 주고받을 때 AI가 계산을 멈추고 데이터를 기다리는 일이 없도록, 데이터를 빠르게 공급할 수 있도록 강화했다. 단순히 계산 속도가 빠른 것을 넘어, 데이터센터 전체가 하나의 유기체처럼 움직이는 ‘AI 민첩성’이라는 새로운 차원을 열었다고 볼 수 있다.

트레이니엄3의 진가는 효율성에서 드러난다. AWS에 따르면, 이전 세대 대비 계산 성능은 4.4배, 전력 효율은 4배 향상되었다. 실제로 아마존의 AI 서비스인 ‘베드록(Bedrock)’에서 트레이니엄3를 적용했을 때, 처리 속도가 3배나 빨라지는 성과를 거두었다. 물론 순수한 연산 능력(FLOPS)만 놓고 보면, 엔비디아의 최신형인 그레이스 블랙웰 패키지(GB300)가 여전히 앞서 있을지 모른다. 그러나, ‘초당 토큰 처리량 대비 비용’을 따지기 시작하면 이야기가 달라진다. AWS는 연구실에 있는 슈퍼컴퓨터가 아니라, 비즈니스 현장에서 가장 경제적인 AI 엔진이 되겠다는 전략이다.

이미 시장의 움직임은 시작되었다. 아마존은 ‘프로젝트 레이니어(Rainer)’를 통해 올해 말까지 100만 개 이상의 트레이니엄 칩을 클러스터로 구축할 예정이다. 초기에는 약 50만 개의 AWS 트레이니엄 칩을 연결하는 것으로 시작했으나, 수십 엑사플롭스(Exaflops)급의 연산 능력을 지향한다. 따라서, 이러한 아키텍처 구조는 현존하는 전 세계 슈퍼컴퓨터 순위를 단숨에 갈아치울 수 있는 수준이다. 그 이유는 엔비디아 GPU보다 저렴하면서도 대규모 모델 학습에 최적화된 성능을 내기 때문이다. 또한, 100만 개의 칩을 하나처럼 돌리기 위해서는 칩 자체보다 ‘연결’이 중요하다. 칩들을 촘촘하게 박아 넣은 고밀도 서버 설계를 통해 물리적 공간을 최적화했다. 수조 개의 파라미터를 가진 모델을 학습시킬 때, 수만 대의 서버가 동시에 데이터를 주고받아도 지연이 최소화되도록, AWS가 직접 설계한 고속 연결 기술을 활용했다. AWS만의 독창적인 ‘울트라서버’ 아키텍처는 두 단계의 압도적인 확장성을 보여준다. 먼저 144개의 트레이니엄 칩을 하나의 서버로 단단히 묶어낸다. 여기서 그치지 않고 데이터센터 전체를 연결해, 최대 100만 개의 칩이 마치 하나의 거대한 시스템처럼 동시에 움직이도록 설계했다.

한편, AWS는 앤트로픽에 막대한 자금을 투자하면서 앤트로픽의 차세대 초거대언어모델(Claude의 후속 버전 등)을 AWS의 트레이니엄 칩 위에서 학습시키도록 했다. 앤트로픽이 엔비디아 도움 없이도 세계 최고 수준의 AI를 개발할 수 있음을 증명하는 ‘실전 테스트베드’ 역할을 할 수 있다는 점이 고무적이다. 이뿐 아니라 최근 AWS는 OpenAI에게도 100억 달러 이상을 투자하며, 앤트로픽 계약과 유사하게 AWS의 트레이니엄 칩을 도입하도록 합의한 것은 AI 업계에서 두 마리의 쌍두마차를 타는 것과 같다. 엔비디아의 최대 고객 중 하나였던 OpenAI조차 비용 효율의 매력 앞에 AWS의 손을 잡은 셈이 된다.

한편, 아무리 좋은 하드웨어도 쓰기 어렵다면 무용지물이다. AWS는 전 세계 개발자들이 공용어처럼 쓰는 PyTorch 프레임워크와 완벽한 호환성을 앞세워, ‘엔비디아 GPU용으로 짠 코드라도 뉴런SDK(Neuron SDK)를 이용해 AWS 전용 트레이니엄 칩에서 클릭 몇 번만으로 즉시 구동되는 환경’을 구축했다. 이러한 마이그레이션 구축 환경은 사실상 엔비디아의 독점적 언어인 CUDA의 영향력에서 개발자들을 해방시키려는 시도다. 즉, 엔비디아의 강력한 CUDA 소프트웨어 생태계 성벽 안에서 안주하던 개발자들에게, AWS는 ‘이삿짐을 새로 쌀 필요가 없다’는 파격적인 제안을 던지는 셈이다. 기존 코드를 거의 수정 없이 그대로 실행할 수 있게 함으로써, 엔비디아의 점유율을 지탱하던 가장 큰 무기인 ‘소프트웨어 숙련도’라는 진입 장벽을 무력화시키고 있는 것이다. 결국 AWS의 전략은 엔비디아를 무너뜨리는 것이 아니라, 엔비디아를 써야만 했던 ‘경제적 이유’를 하나씩 지워 나가는 것이다. 물론 이 강력함이 오직 AWS 클라우드 내부에서만 발휘된다는 폐쇄성은 숙제이지만 클라우드가 AI의 기본 인프라가 된 지금, AWS가 구축한 이 효율성의 요새는 향후 10년 AI 산업의 지형을 뒤흔들기에 충분해 보인다.

구글이 설계한 차세대 TPU ‘아이언우드’의 역습

AWS가 “엔비디아 GPU가 너무 비싸니 경제적인 대안을 찾자”며 계산기를 두드릴 때, 구글은 훨씬 더 근본적이고 도발적인 질문을 던진다. “애초에 GPU라는 구조가 대규모 AI 연산에 최적화된 구조인가?”라는 의문이다. 엔비디아가 만든 GPU는 본래 그래픽 처리를 위해 태어난 ‘범용 가속기(General Accelerator)’다. 반면, 구글이 2025년 공개한 차세대 AI 칩 ‘TPU v7 아이언우드(Ironwood)’는 오직 AI만을 위해 태어난 순수 혈통이다. 구글의 전략은 단순히 칩 하나를 더 빨리 만드는 것이 아니라, 엔비디아가 장악한 ‘CUDA+GPU’라는 표준 자체를 뿌리째 흔드는 데 있다.

아이언우드 TPU: 추론의 시대를 위한 설계. 출처: Google Cloud 유투브

흔히 칩의 성능을 말할 때 ‘연산 속도(FLOPS)’를 따진다. 하지만 실제 AI 서비스, 특히 사용자의 질문에 답을 내놓는 ‘추론’ 단계에서 비용을 결정하는 것은 엔진의 마력이 아니라 데이터가 얼마나 막힘없이 흐르는 가다. 구글의 7세대 TPU인 아이언우드는 이 지점을 정확히 파고들었다. 칩당 메모리 대역폭을 이전 세대보다 대폭 끌어올려 초거대 모델이 연산에 필요한 데이터를 공급받는 속도를 극대화했고, AI가 답변을 생성할 때 발생하는 병목 현상을 해결하기 위해 단순 계산 능력보다 데이터를 주고받는 ‘통로’의 효율성에 집중했다. 결국 아이언우드는 “누가 더 센 주먹을 가졌는가”가 아니라, “누가 더 지치지 않고 효율적으로 데이터를 나르는가”에 초점을 맞춘 칩이다.

엔비디아의 CUDA라는 소프트웨어 생태계가 워낙 강력했기 때문에, 지금까지 구글의 발목을 잡았던 가장 큰 약점은 “구글 내부에서만 쓴다”는 폐쇄성이었다. 하지만 구글은 이제 이 성벽을 정면으로 돌파하기보다 ‘우회로’를 뚫고 있다. 구글이 공개한 아이언우드의 명세를 보면, 이들이 바라보는 AI의 미래가 명확히 읽힌다. 단순히 ‘계산 속도가 얼마나 빠른가(TFLOPS)’가 핵심이 아니라, 칩당 192GiB의 거대한 메모리(HBM) 용량과 초당 7.38TB라는 압도적인 데이터 대역폭을 갖췄다. 그렇다면 이러한 성능이 왜 중요할까? 엔진이 아무리 강력해도 연료가 제때 공급되지 않으면 차는 속도를 낼 수 없는 것처럼, 구글은 AI 연산이라는 엔진에 데이터를 얼마나 더 빠르게, 끊김 없이 공급할 수 있느냐에 모든 설계를 집중했다. 즉, 단순히 ‘빠른 칩’이 아니라 ‘굶지 않는 칩’을 만든 것이다.

여기서 ‘굶지 않는 칩’이란, 아무리 강력한 엔진(연산 장치)을 가졌더라도 연료(데이터)가 제때 공급되지 않으면 차는 멈출 수밖에 없다는 상황을 빗댄 은유적 표현이다. 구글은 데이터가 흐르는 통로를 극한으로 넓혀 연산 장치가 데이터를 기다리며 멍하게 서 있는 ‘병목 현상’을 구조적으로 제거했다. 다시 말해, 이론상의 수치보다 실전에서 단 1초도 쉬지 않고 일하는 실질적 성능에 집중한 칩이 바로 이번 7세대 TPU 아이언우드다.

AI 서비스의 진짜 비용은 연구실의 모델 학습보다 우리가 매일 AI와 대화하는 ‘추론’ 단계에서 발생한다. 특히 요즘처럼 AI가 긴 문맥을 기억해야 하거나 문맥에 따라 필요한 모델만 골라 사용하는 방식이 늘어날수록, 성능의 병목은 ‘계산 능력’이 아니라 ‘데이터 이동’에서 발생한다. 아이언우드는 데이터가 캐시 메모리에 제때 올라오지 못해 연산 장치가 유휴 상태에 놓이는 시간을 최소화함으로써, 실제 서비스 운영 환경에서 훨씬 더 민첩하고 경제적인 성능을 내도록 설계됐다. 아이언우드의 또 다른 비밀 병기는 ‘스파스코어(SparseCores)’라는 특화된 가속 블록이다. 모든 것을 다 잘하려는 엔비디아 GPU와 달리, 구글은 추천 시스템이나 검색 랭킹처럼 구글이 가장 강점을 가진 영역에서 비용 대비 성능을 극대화하는 전용 회로를 칩 안에 과감히 집어넣었다. 이는 범용성의 한계를 넘어 특정 비즈니스 워크로드에서 GPU가 따라오기 어려운 효율을 만들어내는 구글만의 오랜 무기가 됐다. GPU를 ‘모든 요리를 다 하는 만능 셰프’라고 한다면, TPU는 ‘대규모 주방의 자동화 시스템’에 가깝다.

AI 하이퍼컴퓨터와 아이언우드 TPU 관계
출처: Google Cloud 기술 블로그

구글 TPU의 진정한 저력은 칩 하나에 있지 않다. 구글은 무려 9,216개의 칩을 초고속으로 연결하는 ‘포드(Pod)’ 단위의 설계를 핵심으로 삼는다. 엔비디아가 여러 대의 서버를 외부 네트워크로 연결하는 ‘조립식’ 관점에 머물러 있다면, 구글은 데이터센터 전체를 하나의 거대한 시스템으로 설계하는 ‘AI 하이퍼컴퓨터(Hypercomputer)’ 전략을 취한다. 수십만 개에 이르는 칩들이 마치 하나의 두뇌처럼 움직이며 데이터를 공유하기 때문에, 모델이 커질수록 필연적으로 발생하는 데이터 이동 비용을 획기적으로 줄여준다.

만일 아이언우드가 진짜로 엔비디아에 위협이 되려면, “칩이 빠르다”가 아니라 ‘프레임워크–컴파일러–런타임–분산 학습–운영’까지의 마찰 비용을 낮춰야 한다. 이러한 맥락에서 구글은 TPU를 ‘AI 하이퍼컴퓨터’ 패키지로 묶어 하드웨어 성능을 넘어 클러스터 단위의 사용 경험을 판매하려 한다.

구글 또한 AI 생태계를 외부로 확장하려는 시도를 하고 있다. 최근 메타(Meta)와 손잡고 추진하는 ‘토치TPU(TorchTPU)’ 전략이 그 핵심이다. 전 세계 개발자들이 가장 많이 쓰는 도구인 PyTorch를 구글 TPU에서 제약 없이 실행 가능하게 만드는 것이다. 이제 개발자들은 “엔비디아 GPU를 쓰기 위해 CUDA를 공부해야 한다”는 관성에서 벗어나, “내가 짠 코드가 GPU든 TPU든 어디서나 잘 돌아간다”는 자유를 얻게 된다. 독점적 표준을 무력화하려는 구글과 특정 하드웨어에 종속되기 싫은 메타의 이해관계가 맞물린 결과다.

물론 시장의 흐름은 아직까지 엔비디아가 주도하고 있다. 최신 GPU를 가장 먼저 공급하며 개발자들을 자사의 CUDA 생태계에 묶어두는 엔비디아의 전략은 여전히 강력하다. 하지만 구글의 노림수는 ‘속도전’이 아닌 ‘판짜기’에 있다. 비록 출발은 늦었더라도, 데이터센터 전체의 운영 비용(TCO)과 전력 효율을 근본적으로 재정의할 수 있다면 게임의 규칙을 바꿀 수 있다고 믿고 있기 때문이다.

결국 구글은 데이터센터 규모에서 축적한 AI 운영 지식을 집약한 ‘사용 경험’을 팔려고 한다. 엔비디아의 ‘서버 단위 구매’ 관행을 구글의 ‘포드 단위 계약’으로 바꾸려는 이 거대한 시도는, 앞으로 AI 인프라의 주도권이 어디로 흐를지를 결정짓는 중요한 갈림길이 될 것이다.

리사 수의 AMD가 선언한 ‘요타스케일’의 미래

요즘 엔비디아의 GPU 경쟁자로 부각되고 있는 AWS의 트레이니엄(아마존이 인수한 반도체 설계 조직 안나푸르나 랩스가 설계를 주도한 AI 전용 칩)과 구글의 TPU(Tensor Processing Unit, 구글이 자체 개발한 AI 가속기)는 모두 브로드컴(Broadcom)과 TSMC가 제작하는 주문형 반도체다. 그러나 전통적으로 엔비디아의 GPU 전 영역에서 직접 경쟁해 온 회사는 AMD다. 2026년 세계 가전쇼(CES 2026)에서 AMD의 최고경영자(CEO)인 리사 수는 이번 발표를 통해 AI 하드웨어 경쟁이 새로운 국면에 접어들었음을 예고했다. AMD가 제시한 AI 인프라의 미래는 헬리오스(Helios) 랙-스케일 시스템 확장을 통해, 경쟁의 초점이 개별 GPU 성능에서 전체 시스템 아키텍처로 이동했음을 분명히 보여준다. 특히 리사 수는 기조연설에서 ‘요타스케일(yotta-scale) 컴퓨팅’을 언급하며, AI 성능의 미래는 개별 시스템을 넘어 글로벌 수준의 연산 처리로 확장돼야 한다고 주장했다. AI 수요가 급증하는 상황에서 시스템이 어떻게 진화해야 하는지를 제시한 것이다. 이러한 변화를 반영한 헬리오스는 AI 하드웨어 경쟁의 기준을 다시 쓰고 있으며, AI 컴퓨팅을 위한 시스템 설계 자체가 핵심 경쟁 요소로 부상하고 있음을 보여준다. AMD는 이를 통해 AI 인프라의 미래를 향한 새로운 청사진을 제시했다.

요타스케일 컴퓨팅을 구현하는 AM의 헬리오스 랙-스케일 AI 시스템
출처: AMD CES2026 발표 장면

그동안 AI 하드웨어 성능을 비교하는 기준은 주로 GPU 성능이었다. 지금까지는 “가장 빠른 GPU가 최고”라는 인식이 지배적이었다. 그러나 AI 모델이 점점 대형화되고, 데이터 처리 방식이 복잡해지면서 이러한 기준은 한계에 부딪혔다. 헬리오스는 성능의 기준이 개별 칩이 아니라 시스템 전체의 효율성이어야 한다고 강조한다.

그렇다면 시스템 설계가 중요해진 이유는 무엇일까. AI 컴퓨팅의 핵심은 더 이상 개별 칩의 연산 성능만이 아니다. 모델이 커질수록 메모리 대역폭, 데이터 이동 속도, 전력 효율과 같은 요소들이 결정적인 영향을 미친다. 데이터가 분산되고 AI 학습과 추론이 여러 노드에서 동시에 이뤄지는 환경에서는 네트워크와 메모리 구조가 성능을 좌우하는 핵심 요소가 된다. AMD의 헬리오스는 GPU, CPU, 네트워크 카드를 조화롭게 통합해 데이터 이동과 처리 과정에서 발생하는 병목을 해결하고자 했다. 헬리오스 랙 구조는 각 부품이 하나의 시스템처럼 작동하도록 설계돼 AI 성능을 극대화하는 동시에 에너지 효율을 높인다. 또한 MI400 계열에서는 하나의 GPU로 모든 것을 해결하려는 접근을 넘어, 다양한 AI 요구를 충족할 수 있는 전문화된 가속기를 제공한다.

엔비디아의 CUDA와 유사하게 ROCm(Radeon Open Compute Platform)은 GPU 가속 연산을 최적화하고 관리하기 위한 도구와 라이브러리로 구성된 오픈소스 소프트웨어 플랫폼이다. ROCm은 GPU, CPU, 네트워크 간의 데이터 이동과 작업 분배를 효율적으로 관리한다. 따라서 헬리오스 시스템을 효과적으로 운영하려면 ROCm을 통해 AI 연산을 최적화하고, 데이터 이동에 소요되는 시간을 최소화하는 것이 필수적이다. 향후 대규모 AI 시스템에서는 하드웨어뿐 아니라 소프트웨어의 중요성도 더욱 커질 것으로 보인다.

이번 AMD의 CES 기조연설에서 또 하나 주목할 점은 OpenAI와의 협업을 강조했다는 것이다. 이는 헬리오스가 단순히 AMD의 독자 기술이 아니라, 최전선에서 활동하는 AI 연구 조직과의 협력을 바탕으로 발전하고 있음을 보여준다. 실제 AI 모델 개발자들이 신뢰하고 사용하는 인프라로 자리 잡아가고 있다는 신호로도 해석할 수 있다. 향후 OpenAI와 같은 AI 연구 기관이 사용하는 기술을 기반으로, 헬리오스는 AI 산업 전반에서 더욱 강력한 영향력을 발휘할 가능성이 크다.

AI 경쟁의 초점은 ‘속도’에서 ‘효율’로 이동하고 있다

많은 사람들이 AI 성능을 이야기할 때 가장 먼저 떠올리는 것은 ‘얼마나 빠른가’다. 하지만 실제 서비스 운영에서 기업들이 가장 민감하게 보는 지표는 속도가 아니다. 바로 비용이다. AI 서비스의 비용은 크게 두 단계에서 발생한다. 하나는 모델을 처음 학습시키는 과정이고, 다른 하나는 학습된 모델을 실제 추론 서비스로 지속적으로 운영하는 과정이다. 흔히 주목받는 것은 첫 번째 단계지만, 기업 입장에서 더 큰 부담이 되는 것은 두 번째다.
사용자가 질문할 때마다 AI가 답을 생성하는 이 추론 과정은 하루도 쉬지 않고 반복된다. 이 단계에서 중요한 것은 “이론적으로 얼마나 빠른 칩인가”가 아니라, 전기를 얼마나 적게 쓰면서 얼마나 많은 요청을 처리할 수 있는가다. 다시 말해, AI의 성능 경쟁은 점점 ‘속도의 경쟁’에서 ‘효율의 경쟁’으로 이동하고 있다.
GPU는 원래 그래픽 처리를 위해 만들어진 범용 그래픽 처리 장치다. 인공지능 연산에도 매우 뛰어난 성능을 보이지만, 전력 소모가 크고 가격이 비싸다는 한계를 안고 있다. 인공지능이 연구 단계를 넘어 대중적인 서비스로 확산되면서, 이러한 구조는 점점 더 큰 부담으로 작용하고 있다. 바로 이 지점에서 빅테크 기업들은 각기 다른 해법을 찾기 시작했다.

The post AWS·구글·AMD가 설계한 ‘포스트 GPU’ 시대 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.