왜 TPU인가…‘GPU만으로는 안 되는 시대’가 시작됐다

메타가 구글 TPU 대규모 구매에 나서면서 엔비디아 중심의 AI 칩 시장에 균열이 생기고 있다.

구글의 TPU를 구매하려는 메타의 움직임이 글로벌 AI 업계에 파장을 일으키고 있다. 이는 단순한 칩 구매를 넘어 AI 인프라가 어디로 향하고 있는지, 앞으로 어떤 구조가 산업의 표준이 될지, 그리고 왜 지금 이 변화가 시작되는지를 보여주는 사례가 될 전망이다. 외신 보도를 종합해 보면, 메타는 현재 수십 억 달러 규모의 구글 TPU 도입을 위한 최종 협상을 진행 중이다. 현재 진행 중인 협상에는 메타가 2026년 구글 클라우드 TPU를 임대한 후 2027년 도입하는 내용이 포함된 것으로 전해졌다.

메타가 TPU를 검토하는 이유는 GPU를 대체할 새로운 반도체를 찾기 위해서가 아니다. TPU는 ‘칩 → 클라우드 → AI 모델 → 실제 서비스’가 하나의 흐름처럼 이어지는 구글의 수직통합 구조의 중심에 놓여 있다. 구글은 TPU를 직접 설계하고 자사 데이터센터에 배치해 제미나이·검색·유튜브·워크스페이스 서비스에 적용해왔다.

이 구조는 기존 GPU 생태계와 근본적으로 다르다. GPU는 칩을 구매한 뒤 기업이 직접 서버를 구성하고, 학습 환경을 만들어 서비스 운영 비용을 관리해야 했다. 반면 TPU는 처음 설계될 때부터 대규모 모델을 학습하고 곧바로 서비스에 적용한다. 하드웨어와 클라우드, 소프트웨어가 하나의 설계 구도 아래 결합되어 있다.

메타가 TPU 도입을 검토한다는 것은 회사의 학습 방식, 서비스 출시 속도, 운영 비용, AI 전략의 철학까지 다시 설계한다는 것을 의미한다.

그렇다면 왜 지금일까? 2026~2027년은 AI 모델 규모가 폭발적으로 커지고 에이전트 AI가 상시 실행되는 새로운 사용 패턴이 본격화되는 시기다. GPU 중심 구조는 이미 공급 부족과 전력비 폭증으로 한계가 드러났다. 메타는 2023년부터 GPU 확보 문제로 라마(Llama) 학습 일정이 수개월씩 지연되면서 단일 칩에 의존하는 전략이 지속 가능하지 않다는 사실을 경험했다. 구글 클라우드 CEO 토마스 쿠리안(Thomas Kurian)은 11월 중순 한 매체와의 인터뷰에서 “AI 모델의 확장 속도가 GPU 공급 속도를 앞지르고 있다. 전력 효율이 높은 하드웨어는 앞으로 필수 조건이다”라고 언급했다

메타의 선택은 “AI를 어떤 구조에서 운영할 것인가”에 대한 해답이다. AI 인프라는 GPU 중심 시대에서 벗어나 작업 특성과 전력 효율, 공급 안정성에 따라 구조를 최적화하는 방향으로 전환하고 있다.

데이터 기준: NVIDIA H100 (GPU), Google TPU voe Trillium (TPU)
출처: NVIDIA 공식 사양, Google Cloud 공식 문서 (2024-2025)
주의: TPU v6e BF16 918 TFLOPS, INT8 1836 TOPS는 공식 발표 수치입니다.

TPU의 본질은 칩이 아닌 ‘수직 통합 AI 인프라’다

TPU는 구글이 2016년부터 개발해 온 딥러닝 전용 프로세서다. 여기서 ‘전용’이라는 말이 핵심이다. 그래픽 렌더링과 범용 병렬 연산을 함께 처리하는 GPU와 달리, TPU는 처음부터 대규모 신경망 모델 학습에 필요한 행렬 연산만을 극단적으로 효율화하도록 설계됐다.

이 설계 철학의 차이는 내부 구조에서 극명하게 드러난다. GPU는 다양한 목적에 대응하기 위해 여러 캐시와 제어 장치를 포함하지만, TPU는 신경망 학습의 데이터 흐름이 ‘규칙적이고 반복적’이라는 전제로 설계해 내부 병목이 상대적으로 적다. 구글 브레인 공동 창립자 제프 딘(Jeff Dean)은 2016년 TPU 초기 공개 자리에서 “딥러닝 계산의 대부분을 차지하는 행렬 곱셈을 하드웨어 차원에서 최적화한 칩”이라고 설명했는데, 이는 구글 클라우드 공식 문서 ‘TPU 설계(architecture)’에서도 명확하게 밝히고 있다.

구체적으로 TPU는 대규모 MAC(곱셈-누산) 유닛을 통합한 설계를 채택한다. MAC 유닛은 두 숫자를 곱한 뒤 그 결과를 계속 더해나가는 연산을 처리하는 장치로, 신경망 학습의 핵심인 행렬 연산에 필수적이다. 딥러닝 모델은 수십억 개의 파라미터와 거대한 행렬을 반복 처리해야 하는데, 이런 특화된 구조 덕분에 TPU는 전력 대비 성능, 즉 전성비(energy efficiency) 측면에서 뚜렷한 우위를 보인다. 구글 엔지니어 노먼 조우(Norman Jouppi)는 관련 논문에서 “TPU는 GPU보다 높은 연산 밀도와 에너지 효율을 제공한다”고 분석했다. 운영 방식에서도 두 칩은 근본적으로 다르다. GPU는 기업이 구매해 각자의 데이터센터에서 설치·운영하는 구조인 반면, TPU는 태생부터 구글 데이터센터 안에서 최대 효율을 내도록 만들어졌다. 구글은 TPU 칩을 처음 설계할 때부터 “어디에, 어떻게 연결될 것인가”를 함께 구상했다. 여기에 구글 클라우드와의 통합이 더해지며 수백~수천 개의 칩을 대규모 클러스터로 묶어 손쉽게 확장할 수 있다. 이는 LLM 학습에서 필수적인 수평 확장성을 확보하는 데 유리하다.

그러나 TPU가 GPU를 완전히 대체할 수 있을지는 여전히 의문이다. TPU는 신경망 학습에 특화된 만큼, GPU처럼 다양한 AI 작업을 유연하게 처리하기 어렵다. 특히 연구 단계에서 새로운 알고리즘을 실험하거나 예측 불가능한 연산 패턴을 다룰 때는 GPU의 범용성이 여전히 강점이다. 또 TPU는 구글 클라우드 플랫폼에서만 사용 가능하기 때문에 자체 데이터센터를 운영하는 기업들은 접근성 면에서 제약이 있다.

데이터 기준: NVIDIA H100 (GPU), Google TPU voe Trillium (TPU)
출처: NVIDIA 공식 사양, Google Cloud 공식 문서 (2024-2025)
주의: 특정 벤치마크 조건 하에서의 수치입니다.

GPU 중심 시대의 문제는 성능이 아니라 전력, 공급, 그리고 확장 한계다

지금까지 AI 칩 시장은 엔비디아(NVIDIA)의 독무대였다. 오픈AI의 GPT-4, 앤트로픽의 클로드, 메타의 라마 등 주요 AI 모델 대부분이 엔비디아 GPU로 훈련됐다. 이유는 명확하다. 성능이 검증됐고, 개발 도구(CUDA)가 잘 갖춰져 있으며 생태계가 크기 때문이었다.

그러나 최근 2년 동안 GPU 중심 구조에는 세 가지 근본적 문제가 드러났다.
첫째, 전력이다. 국제에너지기구(IEA)는 “AI 데이터센터 전력 사용량이 2026년까지 두 배 이상 증가할 것”이라고 전망한다. GPU는 매우 강력한 반면 전력 소모도 크기 때문에, 기업들이 수천 대의 GPU를 사용하면 전력비와 냉각비가 기하급수적으로 늘어난다. 메타와 마이크로소프트, 아마존 등은 최근 “전력 확보가 AI 확장의 가장 큰 병목”이라고 밝혔다. 성능보다 운영 가능성이 더 중요한 문제가 된 것이다.

둘째, 공급 부족이다. 챗GPT 이후 엔비디아 GPU 수요가 폭발하면서 H100·H200 같은 최신 칩은 몇 달에서 길게는 1년까지 기다려야 하는 상황이 됐다. 엔비디아 H100 칩 가격은 2023년 초 2만 달러에서 2024년 중반 4만 달러까지 치솟았다. 수요가 공급을 압도하자 가격이 폭등한 것이다. 메타는 라마 3 훈련에 H100 칩 수만 개를 썼다. 라마 4는 더 크고 복잡하다. 그런데 엔비디아는 “기다리라”고 한다. 메타는 이 과정에서 단일 칩 공급망에 의존하는 전략이 얼마나 위험한지 실감했다.

셋째, GPU의 구조적 한계다. GPU는 본래 게임 그래픽을 위해 만들어진 칩이다. 화면에 나타나는 수백만 개의 픽셀을 동시에 계산해야 하기 때문에 병렬 처리 능력이 강하다. 이 특성 덕분에 AI 학습에도 유용하게 쓰였다. 그러나 GPU는 게임뿐 아니라 영상 편집, 3D 모델링, 과학 계산 등 여러 작업을 처리할 수 있도록 설계됐다. 이를 위해 칩 내부에는 다양한 연산 유닛과 메모리 관리 장치, 제어 회로가 빼곡하게 들어가 있다.

문제는 AI 모델 학습이 이 모든 기능을 필요로 하지 않는다는 것이다. 신경망 학습의 핵심은 행렬 곱셈과 덧셈을 수십억 번 반복하는 것이다. 예를 들어 ‘2×3 + 5×7 + 1×9 = …’ 같은 계산을 끊임없이 되풀이한다. 이 작업은 단순하고 예측 가능하다. 그런데 GPU는 이런 단순 반복 외에도 복잡한 그래픽 효과, 물리 엔진, 다양한 데이터 형식 처리 등을 모두 지원하도록 만들어졌기 때문에, AI 학습에 불필요한 회로들이 전력을 소모하고 열을 발생시킨다. MIT 컴퓨터과학·인공지능연구소(CSAIL) 연구팀은 “대규모 모델 학습에서는 여러 작업을 처리하는 범용 칩보다, 행렬 연산만 집중적으로 처리하는 전용 칩이 전력 효율과 속도 면에서 낫다”고 분석했다.

이처럼 전력 폭증, 공급 병목, 구조적 비효율의 세 요인이 겹치면서 GPU 중심 방식은 한계에 부딪혔다. TPU는 GPU처럼 여러 작업을 처리하지 못하지만, 신경망 학습에 필요한 행렬 연산에서는 GPU 대비 2~3배 높은 전력 효율을 보인다. 2023년 12월 순다 피차이 구글 CEO는 자사 블로그에 “TPU로 훈련한 제미나이가 벤치마크 결과에서 GPT-4와 대등한 수준이다”라고 밝혔고, 같은 시기에 발표된 논문 <언어 능력에 대한 심층 분석(An In-depth Look at Gemini’s Language Abilities)>에서도 제미나이가 여러 언어작업, 번역, 추론, 복잡한 질문 응답 등에 있어서 GPT-계열 모델과 비교할 만한 수준이라고 명시했다.

데이터 기준: NVIDIA H100 (GPU), Google TPU voe Trillium (TPU)
출처: NVIDIA 공식 사양, Google Cloud 공식 문서 (2024-2025)
주의: 효율성 비교(전력/가격 대비 성능)는 특정 워크로드와 조건에서 측정된 값으로, 실제 성능은 모델, 배치 크기, 최적화 수준에 따라 달라질 수 있습니다.

AI 인프라는 단일 칩의 전쟁에서 벗어나고 있다

다시 처음으로 돌아가 메타의 TPU 도입 검토는 AI 인프라 시장 전체의 구조적 변화가 시작됐음을 보여준다. AI 가속기 시장의 경쟁 구도는 더 이상 하나의 칩으로 설명되지 않는다. 구글 TPU만 주목받는 것도 아니다. AMD는 MI300 시리즈를 전면에 내세우며 메모리 대역폭과 HBM 용량을 강점으로 강조하고 있고, 인텔(Intel)은 가우디2·가우디3(Gaudi2·Gaudi3) 가속기로 “GPU 일변도 구조에 균열을 내는 비용 효율 전략”을 어필하고 있다. 글로벌 클라우드 기업들은 이미지 생성, 멀티모달 학습, 대규모 추천 시스템 등 주요 워크로드에서 GPU 외 가속기를 시험하며, 단일 구조에서 벗어난 선택지를 탐색 중이다.

평가 기준 또한 바뀌었다. 지금은 “각 작업에 가장 적합한 아키텍처는 무엇인가”가 중요하다. 스마트폰의 음성 인식이나 카메라 분석은 저전력 칩(NPU)이, 대규모 언어모델 학습은 GPU의 유연성이, 검색·추천 같은 초고속 서비스는 TPU의 반복 연산 효율이 유리하다. 업계 전문가들은 이를 “상황에 따라 장치를 조합해 최적 구조를 만드는 멀티가속기 전략”이라고 설명한다. 기업들은 이제 ‘칩의 성능’이 아니라 ‘칩 조합의 효율’을 기준으로 인프라를 설계한다.

TPU는 이러한 변화 속에서 실사용 확장 속도가 빠른 가속기 가운데 하나로 떠오르고 있다. 시장조사업체 트렌드포스(TrendForce)가 10월에 발표한 자료에 따르면, 2026년 AI 가속기 시장에서 ASIC(예: TPU, 기타 전용 가속기) 부문의 연간 성장률은 44.6%로, 같은 기간 GPU 부문 성장률(약 16.1%)을 크게 앞지른다. 구글은 TPU v6e(코드명: Trillium), v7 등을 외부 기업에 제공해 생태계를 확장 중이다. 메타가 TPU를 도입하면 이는 TPU 생태계 확장의 촉매가 될 가능성이 크다. 이렇게 되면 아마존이 트레이늄(Trainium) 칩을 외부에 팔거나, 마이크로소프트가 자체 칩 마이아(Maia)를 다른 회사에 공급하는 시나리오도 현실화될 수 있다.

물론 GPU 중심 생태계는 여전히 막강하다. 쿠다(CUDA) 기반의 소프트웨어 스택, 개발자 커뮤니티, 풍부한 최적화 사례는 여타 칩들이 단기간에 따라잡기 어려운 장벽이다. 그럼에도 기업들이 GPU 외 가속기를 실험하는 이유는 단순한 비용 절감이나 전력 효율 때문만이 아니다. 점점 더 다양한 AI 워크로드를 다루게 되면서 모든 작업을 하나의 칩 구조에 맞추는 방식이 점점 비효율적이라는 판단 때문이다.

MIT 컴퓨터과학·인공지능연구소는 “전력 효율, 비용, 공급 안정성, 생태계 통합 능력이 동시에 고려돼야 하는 환경에서 하나의 칩으로 모든 문제를 해결하는 시대는 끝나가고 있다”고 설명했다. AI 에이전트 시대가 본격화되는 시기에는 “현재의 데이터센터형 GPU·TPU만으로는 전력 수요를 감당할 수 없다”고 스탠포드 HAI 연구진은 지적한다. TPU는 효율적이지만 최종 해답은 아니다. 미래는 고효율·저전력·분산형 AI 칩 구조가 반드시 결합돼야 한다.

AI 인프라의 새로운 시대가 열리고 있다. 경쟁의 중심은 이제 ‘칩-클라우드-모델-서비스가 얼마나 유기적으로 연결되는가’로 이동하고 있다. 미래의 우위는 단일 칩이 아니라, 여러 장치를 효율적으로 결합해 통합된 생태계를 구축하느냐에 달렸다.

The post 왜 TPU인가…‘GPU만으로는 안 되는 시대’가 시작됐다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.