Abstract
(서론): 빠르게 변화하는 딥 러닝 환경은 특정 데이터센터 규모의 워크로드에 최적화된 추론 가속기를 구축할 수 있는 독특한 기회를 제공합니다.
(방법론): 우리는 하드웨어-소프트웨어 스택 내의 주요 설계 결정을 포함하는 광범위한 최적화 환경을 정의하는 하드웨어 가속기 검색 프레임워크인 Full-stack Accelerator Search Technique (FAST)를 제안합니다. 여기에는 하드웨어 데이터 경로, 소프트웨어 스케줄링, 연산 융합 및 텐서 패딩과 같은 컴파일러 패스가 포함됩니다. 이 논문에서 우리는 EfficientNet과 BERT를 포함한 최첨단 비전 및 자연어 처리(NLP) 모델의 병목 현상을 분석하고 이러한 병목 현상을 해결할 수 있는 가속기를 설계하기 위해 FAST를 사용합니다.
(결론): 단일 워크로드에 최적화된 FAST 생성 가속기는 모든 벤치마크에서 TPU-v3에 비해 평균적으로 Perf/TDP를 3.7배 향상시킵니다. 여러 워크로드를 제공하는 데 최적화된 FAST 생성 가속기는 TPU-v3에 비해 평균적으로 Perf/TDP를 2.4배 향상시킵니다. 우리의 투자 수익 분석은 FAST 생성 가속기가 중간 규모의 데이터센터 배포에 실용적일 수 있음을 보여줍니다.
Figure
figure 1
figure 2
figure 3
figure 4
figure 5
figure 6
figure 7
figure 8
figure 9
figure 10
figure 11
figure 12
figure 13
figure 14
figure 15
Table
table 1
table 2
table 3
table 4
table 5
table 6