논문 아카이브

「논문 아카이브」

[ISPASS'19] Timeloop

Timeloop: A Systematic Approach to DNN Accelerator Evaluation

Abstract This paper presents Timeloop, an infrastructure for evaluating and exploring the architecture design space of deep neural network (DNN) accelerators. Timeloop uses a concise and unified r...

[DATE'19] Nhut-Minh Ho, et.al.

Multi-objective Precision Optimization of Deep Neural Networks for Edge Devices

Abstract A general method for allocating precision to trained deep neural networks data based on a property relating errors in a network is described, achieving a 29% and 46% energy saving over th...

[FPGA'19] HeteroCL

HeteroCL: A Multi-Paradigm Programming Infrastructure for Software-Defined Reconfigurable Computing

Abstract 엄격한 전력 제약 조건 하에서 컴퓨팅 성능을 개선하고자 하는 요구가 증가함에 따라 GPU 및 FPGA와 같은 가속기가 있는 이기종 하드웨어 아키텍처에 애플리케이션을 배포해야 할 필요성이 커지고 있습니다. 그러나 이러한 이기종 컴퓨팅 플랫폼이 널리 보급되고 있지만, 특히 FPGA의 경우 프로그래밍하기가 매우 어렵습니다. 그 결과 이러한...

[HPCA'19] Shortcut Mining

Shortcut Mining: Exploiting Cross-Layer Shortcut Reuse in DCNN Accelerators

Abstract Off-chip memory traffic has been a major performance bottleneck in deep learning accelerators. While reusing on-chip data is a promising way to reduce off-chip traffic, the opportunity on...

[JSSC'19] UNPU

UNPU: An Energy-Efficient Deep Neural Network Accelerator With Fully Variable Weight Bit Precision

Abstract An energy-efficient deep neural network (DNN) accelerator, unified neural processing unit (UNPU), is proposed for mobile deep learning applications and is the first DNN accelerator ASIC t...

[BigData'18] YOLO-LITE

YOLO-LITE: A Real-Time Object Detection Algorithm Optimized for Non-GPU Computers

Abstract This paper focuses on YOLO-LITE, a real-time object detection model developed to run on portable devices such as a laptop or cellphone lacking a Graphics Processing Unit (GPU). This paper...

[ASID'18] NVDLA

Research on NVIDIA Deep Learning Accelerator

Abstract 이 논문은 NVIDIA 딥러닝 가속기(NVDLA)를 소개하며, 하드웨어 아키텍처 사양과 소프트웨어 환경을 포함합니다. 동시에, NVIDIA가 제공하는 가상 플랫폼에서 Caffe 프레임워크의 LeNet 네트워크 모델을 사용하여 NVDLA의 컨볼루션 신경망(CNN) 추론 측면의 기본 기능을 검증합니다. 실험 결과, NVDLA는 사전에 설...

[ICCAD'18] PolySA

PolySA: Polyhedral-Based Systolic Array Auto-Compilation

author: Jie Wang Abstract (서론) 자동 수축기 배열 생성은 수동 설계의 긴 개발 주기를 단축해야 하는 필요성 때문에 오랫동안 흥미로운 주제였습니다. (배경) 기존의 자동 systolic array 생성 방식은 알고리즘으로부터 종속성 그래프를 구축하고, 그래프의 연산 노드를 PE 내에서 작동하는 노드의...

[MICRO'18] Cambricon-S

Cambricon-S: Addressing Irregularity in Sparse Neural Networks through A Cooperative Software/Hardware Approach

Abstract 신경망은 이미지 인식, 음성 인식 및 자연어 처리와 같은 다양한 응용 분야에서 최첨단 성능을 달성하면서 빠르게 지배적인 알고리즘이 되었습니다. 그러나 신경망은 더 깊고 큰 아키텍처로 이동하면서 막대한 양의 데이터와 연산에 큰 도전을 제기하고 있습니다. 희소성은 연산 강도와 메모리 접근을 직접적으로 줄이기 위한 효과적인 해결책으로 등장...

[ASPLOS'18] Interstellar

Interstellar: Using Halide's Scheduling Language to Analyze DNN Accelerators

Abstract 우리는 DNN 가속기 마이크로 아키텍처와 그 프로그램 매핑이 DNN의 7개의 중첩된 루프를 계산하기 위한 루프 순서와 하드웨어 병렬성의 특정 선택을 나타내며, 이를 통해 기존의 모든 고밀도 DNN 가속기에 대한 공식 분류법을 만들 수 있음을 보여줍니다. 놀랍게도 이러한 하드웨어 변형을 만드는 데 필요한 루프 변환은 Halide의 스케...