[ASPLOS'21] FAST

A full-stack search technique for domain optimized deep learning accelerators

Dan Zhang, et.al. on May 26, 2021
doi.org
obsidian에서 수정하기

Abstract

(서론): 빠르게 변화하는 딥 러닝 환경은 특정 데이터센터 규모의 워크로드에 최적화된 추론 가속기를 구축할 수 있는 독특한 기회를 제공합니다.

(방법론): 우리는 하드웨어-소프트웨어 스택 내의 주요 설계 결정을 포함하는 광범위한 최적화 환경을 정의하는 하드웨어 가속기 검색 프레임워크인 Full-stack Accelerator Search Technique (FAST)를 제안합니다. 여기에는 하드웨어 데이터 경로, 소프트웨어 스케줄링, 연산 융합 및 텐서 패딩과 같은 컴파일러 패스가 포함됩니다. 이 논문에서 우리는 EfficientNet과 BERT를 포함한 최첨단 비전 및 자연어 처리(NLP) 모델의 병목 현상을 분석하고 이러한 병목 현상을 해결할 수 있는 가속기를 설계하기 위해 FAST를 사용합니다.

(결론): 단일 워크로드에 최적화된 FAST 생성 가속기는 모든 벤치마크에서 TPU-v3에 비해 평균적으로 Perf/TDP를 3.7배 향상시킵니다. 여러 워크로드를 제공하는 데 최적화된 FAST 생성 가속기는 TPU-v3에 비해 평균적으로 Perf/TDP를 2.4배 향상시킵니다. 우리의 투자 수익 분석은 FAST 생성 가속기가 중간 규모의 데이터센터 배포에 실용적일 수 있음을 보여줍니다.

Figure

figure 1 figure 1

figure 2 figure 2

figure 3 figure 3

figure 4 figure 4

figure 5 figure 5

figure 6 figure 6

figure 7 figure 7

figure 8 figure 8

figure 9 figure 9

figure 10 figure 10

figure 11 figure 11

figure 12 figure 12

figure 13 figure 13

figure 14 figure 14

figure 15 figure 15

Table

table 1 table 1

table 2 table 2

table 3 table 3

table 4 table 4

table 5 table 5

table 6 table 6