obsidian에서 수정하기

Abstract

많은 기업들이 소비자나 산업을 위해 대량의 데이터를 정교하게 처리하기 위한 머신 러닝 알고리즘을 기반으로 하는 서비스를 배포하고 있습니다. 이러한 최신 기술과 가장 인기 있는 머신 러닝 알고리즘은 컨볼루션 신경망(CNN)과 심층 신경망(DNN)으로, 계산 및 메모리 집약적인 것으로 알려져 있습니다.

최근에는 높은 계산 용량/면적 비율을 제공할 수 있는 여러 신경망 가속기가 제안되었으나, 메모리 접근에 의해 여전히 제약을 받고 있습니다. 그러나 일반 목적의 워크로드에서 프로세서가 직면하는 메모리 벽과 달리, CNN 및 DNN의 메모리 풋프린트는 크지만 멀티 칩 시스템의 온칩 스토리지 용량을 초과하지 않습니다. 이러한 특성과 CNN/DNN 알고리즘의 특성을 결합하면 높은 내부 대역폭과 낮은 외부 통신이 가능해져 합리적인 면적 비용으로 높은 수준의 병렬 처리가 가능해집니다. 이 기사에서는 이러한 점들을 기반으로 사용자 지정 멀티 칩 머신 러닝 아키텍처를 소개합니다.

가장 큰 것으로 알려진 일부 신경망 계층에서 GPU 대비 450.65배의 속도 향상과 64-칩 시스템에서 평균 150.31배의 에너지 절감을 달성할 수 있음을 보여줍니다. 우리는 28nm 공정에서 산업 등급의 인터커넥트를 갖춘 사용자 지정 스토리지 및 계산 유닛의 조합을 포함하여 노드를 배치하고 라우팅까지 구현합니다.