[HPCA'20] HDA

Heterogeneous Dataflow Accelerators for Multi-DNN Workloads

Hyoukjun Kwon, et.al. on December 17, 2020
doi.org
obsidian에서 수정하기

Abstract

(서론) 증강 현실 및 가상 현실(AR/VR)과 같은 새로운 AI 지원 애플리케이션은 물체 감지, 이미지 분할, 시선 추적, 음성 인식 등과 같은 다양한 하위 작업에 여러 심층 신경망(DNN) 모델을 활용합니다. 하위 작업의 다양성으로 인해 DNN 모델 안팎의 레이어는 작동 방식과 형태가 매우 이질적입니다.

각 레이어가 선호하는 데이터 흐름(계산 순서 및 병렬화)과 타일 크기가 다르기 때문에 단일 DNN 가속기 기판에서 고정 데이터 흐름 전략을 사용하는 고정 데이터 흐름 가속기(FDA)의 경우 다양한 레이어 작동 및 형태는 주요 과제입니다. 이 문제를 해결하기 위해 데이터 흐름을 다양한 계층에 맞게 조정할 수 있는 재구성 가능한 DNN 가속기(RDA)가 제안되었습니다. 그러나 RDA의 데이터 흐름 유연성은 값비싼 하드웨어 구조(스위치, 인터커넥트, 컨트롤러 등)의 비용으로 구현되며 레이어별 재구성이 필요하기 때문에 상당한 에너지 비용이 발생합니다.

이 연구에서는 각각 다른 데이터 흐름을 지원하는 여러 개의 가속기 기판(즉, 하위 가속기)을 배치하는 새로운 종류의 가속기인 이기종 데이터 흐름 가속기(HDA) 를 제안합니다. HDA는 RDA보다 더 세분화된 데이터 흐름 유연성을 제공하며, 에너지 효율은 더 높고 면적 비용은 FDA와 비슷합니다. 이러한 이점을 활용하려면 하위 가속기 간의 하드웨어 리소스 파티셔닝과 레이어 실행 일정을 신중하게 최적화해야 합니다. 따라서 하드웨어 파티셔닝과 레이어 스케줄링을 함께 최적화하기 위한 프레임워크인 Herald 도 소개합니다.

(결론) 1AR/VR 및 MLPerf 워크로드에 Herald를 사용하여 최고의 고정 데이터 흐름 가속기에 비해 65.3% 낮은 지연 시간과 5.0% 낮은 에너지, 최첨단 재구성 가능한 DNN 가속기(RDA)에 비해 20.7% 높은 지연 시간 대신 22.0% 낮은 에너지를 제공하는 유망한 HDA 아키텍처인 Maelstrom을 확인했습니다. 이 결과는 HDA가 에너지 측면에서 강점을 지닌 RDA의 대체 파레토 최적 가속기 클래스이며, 사용 사례에 따라 RDA보다 더 나은 선택이 될 수 있음을 시사합니다.

Figure

figure 1 figure 1

figure 2 figure 2

figure 3 figure 3

figure 4 figure 4

figure 5 figure 5

figure 6 figure 6

figure 7 figure 7

figure 8 figure 8

figure 9 figure 9

figure 10 figure 10

figure 11 figure 11

figure 12 figure 12

figure 13 figure 13

Table

table II table II

table III table III

table V table V

table VI table VI

table VII table VII

Reference

Background

  • (missing reference)

  • (missing reference)

  • (missing reference)

  • [1]

Method

Citation

Background

  • (missing reference)

  • (missing reference)

  • (missing reference)

  • (missing reference)

  • (missing reference)

  • (missing reference)

Method

  • (missing reference)

  • (missing reference)

  • (missing reference)

  • (missing reference)

  • (missing reference)

  1. Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks, 2016, [post]
  2. MAERI: Enabling Flexible Dataflow Mapping over DNN Accelerators via Reconfigurable Interconnects, 2018, [post]
  3. Understanding Reuse, Performance, and Hardware Cost of DNN Dataflow: A Data-Centric Approach, 2018, [post]
  4. Interstellar: Using Halide’s Scheduling Language to Analyze DNN Accelerators, 2018, [post]