[ASPLOS'14] DianNao

DianNao: a small-footprint high-throughput accelerator for ubiquitous machine-learning

Tianshi Chen, et.al. on February 24, 2014
doi.org
obsidian에서 수정하기

Abstract

머신러닝 작업은 임베디드 시스템부터 데이터 센터에 이르기까지 광범위한 영역과 다양한 시스템에서 널리 사용되고 있습니다. 동시에 소규모의 머신러닝 알고리즘(특히 컨볼루션 및 심층 신경망, 즉 CNN과 DNN)이 많은 애플리케이션에서 최첨단 기술로 입증되고 있습니다. 아키텍처가 코어와 가속기가 혼합된 이기종 멀티 코어로 진화함에 따라 머신러닝 가속기는 대상 알고리즘의 수가 적기 때문에 효율성과 광범위한 애플리케이션 범위의 드문 조합을 달성할 수 있습니다. 지금까지 대부분의 머신러닝 가속기 설계는 알고리즘의 연산 부분을 효율적으로 구현하는 데 중점을 두었습니다. 하지만 최근의 최신 CNN과 DNN은 크기가 큰 것이 특징입니다. 이 연구에서는 메모리가 가속기 설계, 성능 및 에너지에 미치는 영향에 특히 중점을 두고 대규모 CNN과 DNN을 위한 가속기를 설계합니다. 3.02mm2, 485mW의 작은 풋프린트에서 452GOP/s(시냅스 가중치 곱셈 및 뉴런 출력 덧셈과 같은 주요 NN 연산)를 수행할 수 있는 높은 처리량을 가진 가속기를 설계할 수 있음을 보여주었으며, 128비트 2GHz SIMD 프로세서와 비교하면 117.87배 빠르고 총 에너지를 21.08배 절감할 수 있습니다. 가속기 특성은 65nm에서 레이아웃 후 얻습니다. 작은 풋프린트에서 높은 처리량을 제공하므로 다양한 시스템과 광범위한 애플리케이션에서 최첨단 머신러닝 알고리즘을 사용할 수 있습니다.

Figure

figure 1

figure 3

figure 5

figure 6

figure 7

figure 8

figure 9

figure 10

figure 11

figure 12

figure 13

figure 14

figure 15

figure 16

figure 17

figure 18

figure 19

Table

table 1

table 2

table 4

table 5

table 6