논문 아카이브

「논문 아카이브」

[FPGA'18] Duncan J. M. Moss, et.al.

A Customizable Matrix Multiplication Framework for the Intel HARPv2 Xeon+FPGA Platform: A Deep Learning Case Study

Abstract This work presents a customizable matrix multiplication framework for the Intel HARPv2 CPU+FPGA platform that includes support for both traditional single precision floating point and red...

[arXiv'18] Tensor Comprehensions

Tensor Comprehensions: Framework-Agnostic High-Performance Machine Learning Abstractions

Abstract Deep learning models with convolutional and recurrent networks are now ubiquitous and analyze massive amounts of audio, image, video, text and graph data, with applications in automatic t...

[ICCV'17] Yihui He, et.al.

Channel Pruning for Accelerating Very Deep Neural Networks

Abstract This paper proposes an iterative two-step algorithm to effectively prune each layer, by a LASSO regression based channel selection and least square reconstruction, and generalizes this al...

[ISCA'17] Plasticine

Plasticine: A reconfigurable architecture for parallel patterns

Abstract 재구성 가능한 아키텍처는 에너지 효율적인 가속기를 설계할 수 있게 하여 최근 몇 년간 인기를 얻고 있습니다. 세밀한 그레인 패브릭(예: FPGA)은 비트 레벨 재구성 추상화로 인해 전통적으로 성능 및 전력 비효율성에 시달려 왔습니다. 세밀한 그레인 아키텍처와 조밀한 그레인 아키텍처(예: CGRA)는 전통적으로 low-level 프로...

[DAC'17] Automated Systolic Array

Automated systolic array architecture synthesis for high throughput CNN inference on FPGAs

text : en kr Abstract (서론): 컨볼루션 신경망(CNN)은 많은 딥러닝 응용 프로그램에서 널리 사용되고 있습니다. 최근 몇 년 동안 FPGA를 사용한 CNN 구현은 높은 성능과 에너지 효율성 때문에 많은 관심을 받고 있습니다. (한계): 하지만 기존 구현은 최신 FPGA의 계산 성능을 완전히 활용하는 데 어려움을 겪고 있습니다....

[ISCA'17] SCNN

SCNN: An accelerator for compressed-sparse convolutional neural networks

Abstract Convolutional Neural Networks (CNNs) have emerged as a fundamental technology for machine learning. High performance and extreme energy efficiency are critical for deployments of CNNs, es...

[arXiv.org'17] MobileNets

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

Abstract This work introduces two simple global hyper-parameters that efficiently trade off between latency and accuracy and demonstrates the effectiveness of MobileNets across a wide range of app...

[ISCA'17] TPU

In-datacenter performance analysis of a tensor processing unit

Abstract 많은 아키텍트들은 이제 비용-에너지-성능의 주요 개선이 도메인 특화 하드웨어에서 나와야 한다고 믿습니다. 이 논문은 신경망(NN)의 추론 단계를 가속화하는 2015년부터 데이터센터에 배치된 사용자 정의 ASIC인 Tensor Processing Unit(TPU)을 평가합니다. TPU의 핵심은 65,536개의 8비트 MAC 행렬 곱셈 ...

[HPCA'17] FlexFlow

FlexFlow: A Flexible Dataflow Accelerator Architecture for Convolutional Neural Networks

Abstract 컨볼루션 신경망(CNN)은 매우 연산 집약적입니다. 최근 CNN 내재적 병렬성을 기반으로 하는 많은 CNN 가속기가 제안되고 있습니다. 그러나 컴퓨팅 엔진이 지원하는 병렬 유형과 CNN 워크로드의 지배적인 병렬 유형 사이에 큰 불일치가 있는 것으로 나타났습니다. 이러한 불일치는 기존 가속기의 리소스 활용도를 심각하게 저하시킵니다. 이...

[FPGA'17] U. Aydonat, et.al.

An OpenCL™ Deep Learning Accelerator on Arria 10

Abstract This work shows a novel architecture written in OpenCL(TM), which is referred to as a Deep Learning Accelerator (DLA), that maximizes data reuse and minimizes external memory bandwidth, a...