[ISCA'17] TPU

In-datacenter performance analysis of a tensor processing unit

N. Jouppi, et.al. on April 16, 2017
doi.org
obsidian에서 수정하기

Abstract

많은 아키텍트들은 이제 비용-에너지-성능의 주요 개선이 도메인 특화 하드웨어에서 나와야 한다고 믿습니다. 이 논문은 신경망(NN)의 추론 단계를 가속화하는 2015년부터 데이터센터에 배치된 사용자 정의 ASIC인 Tensor Processing Unit(TPU)을 평가합니다. TPU의 핵심은 65,536개의 8비트 MAC 행렬 곱셈 유닛으로, 최대 처리량은 92 테라연산/초(TOPS)이며, 28 MiB의 소프트웨어 관리 온칩 메모리를 갖추고 있습니다. TPU의 결정론적 실행 모델은 평균 처리량보다는 보장된 대기 시간을 더 중요시하는 NN 애플리케이션의 99번째 백분위 응답 시간 요구 사항에 더 적합합니다. 이러한 기능의 부족은 많은 MAC과 큰 메모리를 가지고 있음에도 불구하고 TPU가 상대적으로 작고 저전력인 이유를 설명합니다. 우리는 TPU를 서버급 Intel Haswell CPU와 Nvidia K80 GPU와 비교합니다. 우리의 워크로드는 고수준 TensorFlow 프레임워크로 작성되었으며, 데이터센터의 NN 추론 수요의 95%를 차지하는 생산 NN 애플리케이션(MLP, CNN, LSTM)을 사용합니다. 일부 애플리케이션에 대한 낮은 활용률에도 불구하고, TPU는 평균적으로 동시대의 GPU나 CPU보다 약 15배~30배 더 빠르며, TOPS/Watt는 약 30배~80배 더 높습니다. 더욱이, TPU에 GPU의 GDDR5 메모리를 사용할 경우 달성된 TOPS가 3배 증가하고 TOPS/Watt는 GPU의 약 70배, CPU의 200배에 달할 것입니다.

Figure

figure 1

figure 2

figure 3

figure 5

figure 6

figure 7

figure 8

figure 9

figure 10

figure 11

Table

table 1

table 2

table 3

table 4

table 6