[DATE'24] WideSA

WideSA: A High Array Utilization Mapping Scheme for Uniform Recurrences on ACAP

Tuo Dai, et.al. on March 25, 2024
doi.org
obsidian에서 수정하기

Abstract

(서론) Versal 적응형 컴퓨팅 가속화 플랫폼(ACAP)은 AI 엔진(AIE)과 재구성 가능한 패브릭을 결합한 새로운 아키텍처입니다. 이 아키텍처는 딥 러닝, 고성능 연산, 신호 처리 등 다양한 영역에서 균일한 반복을 위한 상당한 가속 잠재력을 제공합니다.

(배경) 그러나 이러한 연산을 효율적으로 Versal ACAP 아키텍처에 매핑하는 동시에 AIE의 높은 활용도를 달성하는 것은 어려운 과제입니다.

(방법론)

  • 이 문제를 해결하기 위해 유니티는 하드웨어와 계산의 특징을 모두 활용하여 Versal ACAP 아키텍처에서 균일한 반복을 가속화하는 것을 목표로 하는 WideSA라는 매핑 체계를 제안합니다. AIE의 배열 아키텍처를 고려하여 polyhedral model에 기반한 시공간 변환을 활용하여 법적으로 최적화된 수축기 배열 매핑을 생성하는 방식입니다.

  • 이와 동시에 AlE 어레이의 통신에 맞춘 라우팅 인식 PLIO 할당 알고리즘을 개발했으며, 이 알고리즘은 어레이 활용도를 극대화하면서 성공적인 컴파일을 목표로 합니다. 또한 자동 매핑 프레임워크도 도입했습니다. 이 프레임워크는 AlE 커널 프로그램, 프로그래밍 가능한 로직 비트스트림, 호스트 프로그램을 포괄하는 균일한 반복을 위한 해당 실행 코드를 생성하도록 설계되었습니다.

(결론) 실험 결과는 매핑 체계의 효과를 검증합니다. 특히 VCK5000 보드의 행렬 곱셈 연산에 매핑 체계를 적용했을 때 플로트 데이터 유형에서 4.15TOPS의 처리량을 달성했으며, 이는 Versal ACAP 아키텍처의 최신 가속기에 비해 1.11배 더 높은 수치입니다.

Figure

figure 1 figure 1

figure 2 figure 2

figure 3 figure 3

figure 4 figure 4

figure 5 figure 5

figure 6 figure 6

Table

table I table I

table II table II

table III table III

table IV table IV

Reference

Background

Method

Result

Citation

  1. CHARM: Composing Heterogeneous AcceleRators for Matrix Multiply on Versal ACAP Architecture, 2023, [post]
  2. AutoSA: A Polyhedral Compiler for High-Performance Systolic Arrays on FPGA, 2021, [post]