Abstract
패키지 수준 통합에서 멀티칩모듈(MCM)을 사용하는 것은 대규모 시스템을 구축하는데 있어 유망한 접근법입니다. 대형 일체형 다이와 비교했을 때, MCM은 많은 작은 칩렛을 하나의 큰 시스템으로 결합하여 제작 및 설계 비용을 상당히 줄입니다. 현재 MCM은 칩렛 간 통신과 관련된 높은 면적, 성능 및 에너지 오버헤드 때문에 소수의 거친 입자 크기의 큰 칩렛만을 포함하고 있습니다. 이 연구는 MCM을 사용하여 미세 입자 크기의 칩렛을 사용하는 것의 비용과 이점을 조사하고 정량화합니다. 특히, 계산 및 칩 내 저장 요구사항이 큰 딥러닝 추론이라는 응용 분야에서 이를 평가합니다. 이 접근법을 평가하기 위해, 우리는 딥러닝 추론을 위한 36칩렛 프로토타입 MCM 시스템인 Simba를 설계하고 구현하며 제작하고 테스트했습니다. 각 칩렛은 4 TOPS의 최대 성능을 달성하고, 36칩렛 MCM 패키지는 최대 128 TOPS 및 최대 6.1 TOPS/W를 달성합니다. MCM은 분산된 계산 및 저장 장치에 DNN 레이어를 유연하게 매핑할 수 있도록 구성 가능합니다. 칩렛 간 통신 오버헤드를 완화하기 위해, 우리는 데이터 지역성을 향상시키는 세 가지 타일링 최적화를 도입했습니다. 이 최적화는 기준 레이어 매핑에 비해 최대 16%의 속도 향상을 달성했습니다. 우리의 평가에 따르면 Simba는 배치 크기가 하나인 ResNet-50을 실행하여 초당 1988개의 이미지를 처리할 수 있으며, 추론 지연시간은 0.50ms를 제공합니다.
Figure
figure 1
figure 2
figure 3
figure 4
figure 5
figure 6
figure 7
figure 8
figure 9
figure 10
figure 11
figure 12
figure 13
figure 14
figure 15
figure 16
figure 17
Table
table 1
table 2
table 3