NVIDIA GPU vs Google TPU

2025. 11. 27. 18:30경제/리얼이슈

728x90
반응형

구글 TPU가 엔비디아 GPU를 대체할 거라고 생각하는데, 전혀 그렇지 않음

1. NVIDIA GPU vs Google TPU 그것들은 무엇인가

1) 엔비디아 GPU
- 원래 그래픽/렌더링을 위해 제작
- 대규모 병렬 범용 컴퓨팅 프로세서로 진화
- 훈련, 추론, 그래픽, 과학적 컴퓨팅, 시뮬레이션, 로봇공학, 자율주행차, 게임, 비디오 렌더링 등 거의 모든 것을 실행할 수 있음

2) 구글 TPU
- 도메인별 ASIC (Application-Specific Integrated Circuit)
- Al/ML, 특히 TensorFlow 및 행렬 곱셈이 많은 워크로드를 위해 특별히 제작
- 일반 용도가 아님. 좁은 범위의 연산(특히 대규모 밀집 행렬 곱셈)에 최적화되어 있음

2. 아키텍처 차이점

1) 엔비디아 GPU
- 수천 개의 유연한 CUDA 코어
- SIMD/SIMT 아키텍처
- 고도로 프로그래밍 가능
- FP8, FP16, BF16, TF32, FP32, FP64 지원(세대에 따라 다름)
- 대용량 L2 캐시, 고대역폭 메모리(HBM3/3E)

2) 구글 TPU
- 거대한 수축 배열(예: 128×128 블록)로 배열된 행렬 곱셈 단위
- 매우 제한된 명령어 세트
- 그래픽 기능 없음
- 고정된 ML 패턴에서 최대 효율성을 위해 설계. Google 내부 워크로드에 최적화된 HBM + 상호 연결 사용 XLA 컴파일러를 실행하고 TensorFlow 및 JAX와 긴밀하게 연결됨

3. 성능 차이

1) 훈련
- NVIDIA GPU는 유연성, 모델 지원, 생태계, 성능 확장성(H100, B200) 측면에서 우위.
- TPU는 Google이 하드웨어에 맞게 모델 아키텍처를 수정할 수 있는 매우 큰 고밀도 모델을 훈련하는 데 강력

2) 추론
- TPU는 특정 추론 워크로드에 대해 뛰어난 와트당 성능을 제공
- 하지만 Nvidia의 TensorRT, 양자화 스택, CUDA 라이브러리 및 생태계는 GPU가 실제 배포에서 우위를 점할 수 있도록 해줌

결과
- GPU는 대부분의 학습 및 추론 사용 사례에서 승리
- TPU는 Google 내부에서 매우 구체적인 워크로드를 소수 처리

4. 소프트웨어 생태계

엔비디아가 승리하는 진짜 이유는 다음과 같음

1) NVIDIA CUDA 생태계
- 15년 이상의 툴링 경험
- 이에 최적화된 딥러닝 프레임워크(PyTorch, TensorFlow, JAX 등)
- TensorRT, cuDNN, cuBLAS, NCCL, 거대한 개발자 커뮤니티
- 모든 스타트업은 먼저 CUDA를 기반으로 구축. GPU는 모든 주요 모델 유형을 지원

2) 구글 TPU 생태계
- 대부분 TensorFlow, JAX
- 훨씬 더 작은 생태계
- 널리 이용 가능하지 않음
- Google 엔지니어가 수동으로 추가하지 않는 한 새로운 아키텍처에 대한 지원이 제한


결론

- 메타가 TPU를 선택한 것은 그것이 더 낫기 때문이 아님

- 그들이 TPU를 선택한 이유는 :

1. 엔비디아 공급이 로드맵 요구 사항을 충족하지 못했음
2. TPU를 통해 협상력 제공
3. 낮은 컴퓨팅 비용
4. CUDA에 대한 의존도를 줄임
5. Meta+Google vs Microsoft+Nvidia 구도



Artificial Analysis 하드웨어 벤치마킹 결과


Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200

Artificial Analysis의 벤치마킹에 따르면, 테스트 기관의 핵심 추론 비용 지표에서 NVIDIA가 Google TPU v6e(Trillium) 대비 약 5배, AMD MI300X 대비 약 2배 더 높은 '달러당 토큰(tokens-per-dollar)' 효율을 달성했습니다.

'기준 속도에서의 입력 및 출력 100만 토큰당 비용(Cost Per Million Input and Output Tokens at Reference Speed)'이라는 지표를 기준으로 볼 때, NVIDIA H100 및 B200 시스템이 TPU v6e나 MI300X보다 전반적으로 더 낮은 비용을 기록했습니다.

[Llama 3.3 70B 모델 (vLLM 구동, 쿼리당 초당 30 출력 토큰 속도 기준) 비교]

NVIDIA H100: $1.06 (100만 토큰당)

AMD MI300X: $2.24

Google TPU v6e: $5.13

이 분석은 다양한 동시성(Concurrency) 수준에서의 시스템 추론 처리량(Throughput)에 대한 'Artificial Analysis 시스템 부하 테스트' 결과와 여러 GPU 클라우드 제공업체에서 수집한 가격 데이터를 기반으로 합니다. 해당 비용 지표는 시스템이 '쿼리당 초당 30 출력 토큰'의 속도를 유지하면서 달성할 수 있는 처리량을 기준으로, 시스템 대여 비용을 그 처리량(100만 토큰 단위로 환산)으로 나누어 산출했습니다.

반응형