obsidian에서 수정하기

Abstract

신경망(NN) 모델의 복잡성이 증가함에 따라 계산에 대한 요구가 높아짐에 따라, AMD는 프로그래머블 로직(PL), CPU 및 전용 AI 엔진(AIE) ASIC을 갖춘 이기종 프로그래머블 시스템 온 칩(SoC), 즉, FP32의 경우 이론적으로 최대 6.4 TFLOPs, INT16의 경우 25.6 TOPs, INT8은 102.4 TOP의 처리량을 갖춘 Versal ACAP 아키텍처를 소개합니다. 그러나 복잡도가 높기 때문에 행렬 곱셈과 같이 잘 연구된 애플리케이션의 경우에도 이론적 성능을 달성하는 것은 쉽지 않습니다. 이 백서에서는 Versal에서 MM 가속기용 설계를 체계적으로 생성할 수 있는 자동 화이트박스 프레임워크인 AutoMM을 제공하여 FP32, INT16 및 INT8 데이터 유형에 대해 각각 3.7 TFLOP, 7.5 TOP 및 28.2 TOP을 달성합니다. 당사의 설계는 온보드 테스트를 통해 AMD U250보다 7.20배(FP32), 3.26배(INT16), 6.23배(INT8)의 에너지 효율을, Nvidia Jetson TX2보다 2.32배(FP32), Nvidia A100보다 1.06배(FP32), 1.70배(INT8) 향상시켰습니다.

Figure

figure 1

figure 2

figure 3

figure 4

figure 5

Table

table I table I

table II

table IV

Reference

Background

(missing reference)
(missing reference)

Method

(missing reference)
(missing reference)
(missing reference)
[1]

Citation

CHARM: Composing Heterogeneous AcceleRators for Matrix Multiply on Versal ACAP Architecture, 2023, [post]

[DAC'23] AutoMM

High Performance, Low Power Matrix Multiply Design on ACAP: from Architecture, Design Challenges and DSE Perspectives