[MICRO'19] Simba

Simba: Scaling Deep-Learning Inference with Multi-Chip-Module-Based Architecture

Y. Shao, et.al. on October 12, 2019
doi.org
obsidian에서 수정하기

Abstract

패키지 수준 통합에서 멀티칩모듈(MCM)을 사용하는 것은 대규모 시스템을 구축하는데 있어 유망한 접근법입니다. 대형 일체형 다이와 비교했을 때, MCM은 많은 작은 칩렛을 하나의 큰 시스템으로 결합하여 제작 및 설계 비용을 상당히 줄입니다. 현재 MCM은 칩렛 간 통신과 관련된 높은 면적, 성능 및 에너지 오버헤드 때문에 소수의 거친 입자 크기의 큰 칩렛만을 포함하고 있습니다. 이 연구는 MCM을 사용하여 미세 입자 크기의 칩렛을 사용하는 것의 비용과 이점을 조사하고 정량화합니다. 특히, 계산 및 칩 내 저장 요구사항이 큰 딥러닝 추론이라는 응용 분야에서 이를 평가합니다. 이 접근법을 평가하기 위해, 우리는 딥러닝 추론을 위한 36칩렛 프로토타입 MCM 시스템인 Simba를 설계하고 구현하며 제작하고 테스트했습니다. 각 칩렛은 4 TOPS의 최대 성능을 달성하고, 36칩렛 MCM 패키지는 최대 128 TOPS 및 최대 6.1 TOPS/W를 달성합니다. MCM은 분산된 계산 및 저장 장치에 DNN 레이어를 유연하게 매핑할 수 있도록 구성 가능합니다. 칩렛 간 통신 오버헤드를 완화하기 위해, 우리는 데이터 지역성을 향상시키는 세 가지 타일링 최적화를 도입했습니다. 이 최적화는 기준 레이어 매핑에 비해 최대 16%의 속도 향상을 달성했습니다. 우리의 평가에 따르면 Simba는 배치 크기가 하나인 ResNet-50을 실행하여 초당 1988개의 이미지를 처리할 수 있으며, 추론 지연시간은 0.50ms를 제공합니다.

Figure

figure 1 figure 1

figure 2 figure 2

figure 3 figure 3

figure 4 figure 4

figure 5 figure 5

figure 6 figure 6

figure 7 figure 7

figure 8 figure 8

figure 9 figure 9

figure 10 figure 10

figure 11 figure 11

figure 12 figure 12

figure 13 figure 13

figure 14 figure 14

figure 15 figure 15

figure 16 figure 16

figure 17 figure 17

Table

table 1 table 1

table 2 table 2

table 3 table 3