[DAC'23] AutoMM

High Performance, Low Power Matrix Multiply Design on ACAP: from Architecture, Design Challenges and DSE Perspectives

Jinming Zhuang, et.al. on July 9, 2023
doi.org
obsidian에서 수정하기

Abstract

신경망(NN) 모델의 복잡성이 증가함에 따라 계산에 대한 요구가 높아짐에 따라, AMD는 프로그래머블 로직(PL), CPU 및 전용 AI 엔진(AIE) ASIC을 갖춘 이기종 프로그래머블 시스템 온 칩(SoC), 즉, FP32의 경우 이론적으로 최대 6.4 TFLOPs, INT16의 경우 25.6 TOPs, INT8은 102.4 TOP의 처리량을 갖춘 Versal ACAP 아키텍처를 소개합니다. 그러나 복잡도가 높기 때문에 행렬 곱셈과 같이 잘 연구된 애플리케이션의 경우에도 이론적 성능을 달성하는 것은 쉽지 않습니다. 이 백서에서는 Versal에서 MM 가속기용 설계를 체계적으로 생성할 수 있는 자동 화이트박스 프레임워크인 AutoMM을 제공하여 FP32, INT16 및 INT8 데이터 유형에 대해 각각 3.7 TFLOP, 7.5 TOP 및 28.2 TOP을 달성합니다. 당사의 설계는 온보드 테스트를 통해 AMD U250보다 7.20배(FP32), 3.26배(INT16), 6.23배(INT8)의 에너지 효율을, Nvidia Jetson TX2보다 2.32배(FP32), Nvidia A100보다 1.06배(FP32), 1.70배(INT8) 향상시켰습니다.

Figure

figure 1 figure 1

figure 2 figure 2

figure 3 figure 3

figure 4 figure 4

figure 5 figure 5

Table

table I table I

table II table II

table IV table IV

Reference

Background

  • (missing reference)

  • (missing reference)

Method

  • (missing reference)

  • (missing reference)

  • (missing reference)

  • [1]

Citation

  1. CHARM: Composing Heterogeneous AcceleRators for Matrix Multiply on Versal ACAP Architecture, 2023, [post]