obsidian에서 수정하기

Abstract

인공지능(AI) 워크로드의 증가하는 보급과 계산 요구는 이러한 워크로드의 실행에 하드웨어 가속기의 광범위한 사용을 초래했습니다. AI 가속기의 성능을 세대에 걸쳐 확장하는 것은 상업적 배포에서의 성공에 매우 중요합니다. AI 워크로드의 본질적인 오류 회복 성능은 정밀도 조정을 통해 성능 및 에너지 효율성을 개선할 수 있는 독특한 기회를 제공합니다. 추론 및 훈련을 위한 정밀도 조정의 최근 알고리즘적 발전에 힘입어, 우리는 다양한 정밀도(16 및 8비트 부동 소수점, 4 및 2비트 고정 소수점)를 지원하는 4코어 AI 가속기 칩인 RaPiD 1을 설계했습니다. 7nm EUV 기술로 제작된 36mm² 크기의 RaPiD 칩은 HFP8 모드에서 최대 3.5 TFLOPS/W, INT4 모드에서 16.5 TOPS/W의 성능을 제공합니다. 측정 결과와 1% 이내로 보정된 성능 모델을 사용하여 4코어 1 RaPiD 칩 시스템에 대해 4비트 고정 소수점 표현을 사용하는 DNN 추론과 8비트 부동 소수점 표현을 사용하는 768 TFLOPs AI 시스템(4개의 32코어 RaPiD 칩으로 구성)에 대한 DNN 훈련을 평가했습니다. 우리의 결과에 따르면, 배치 크기 1에 대한 INT4 추론은 다양한 애플리케이션에서 3 - 13.5(평균 7) TOPS/W를 달성하고, 미니 배치 크기 512에 대한 FP8 훈련은 102 - 588(평균 203) TFLOPS를 달성합니다.

[ISCA'21] RaPiD

RaPiD: AI Accelerator for Ultra-low Precision Training and Inference

Abstract

CATALOG

FEATURED TAGS