논문 아카이브

「논문 아카이브」

[DAC'21] TensorLib

TensorLib: A Spatial Accelerator Generation Framework for Tensor Algebra

author: Yun Liang Liqiang Lu Abstract 텐서 대수는 다양한 영역에서 활용되고 있으며, 특히 공간 하드웨어 가속기에서 가속할 경우 고성능과 저전력을 제공할 수 있습니다. 공간 하드웨어 가속기는 설계 공간이 복잡합니다. 수동 구현에 기반한 기존 접근 방식은 프로그래밍 생산성이 낮아 철저한 설...

[CGO'21] MLIR

MLIR: Scaling Compiler Infrastructure for Domain Specific Computation

Abstract This work presents MLIR, a novel approach to building reusable and extensible compiler infrastructure. MLIR addresses software fragmentation, compilation for heterogeneous hardware, signi...

[FPGA'21] AutoSA

AutoSA: A Polyhedral Compiler for High-Performance Systolic Arrays on FPGA

Abstract (배경) 비록 시스톨릭 어레이 아키텍처가 엄청난 성능을 발휘할 잠재력이 있지만, 목표 응용 프로그램에 맞춘 효율적인 시스톨릭 어레이 프로세서를 커스터마이즈하는 것은 악명 높게 어려운 일입니다. 시스톨릭 어레이 설계는 응용 프로그램의 고수준 특성과 저수준 하드웨어 세부 사항 모두에 대한 지식을 요구하므로, 이는 매우 까다롭고 비효율적인...

[J'21] T. Hoefler, et.al.

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks

Abstract This work describes approaches to remove and add elements of neural networks, different training strategies to achieve model sparsity, and mechanisms to exploit sparsity in practice, and ...

[OJCAS'21] W. Gross, et.al.

Hardware-Aware Design for Edge Intelligence

Abstract Recent advances in the efficient processing of DNNs are surveyed, highlighting present research trends and future challenges, and some case studies of promising new directions towards low...

[ACCESS'21] L. Sekanina

Neural Architecture Search and Hardware Accelerator Co-Search: A Survey

Abstract This paper surveys the key elements of NAS methods that – to various extents – consider hardware implementation of the resulting DNNs and emphasizes the multi-objective design approach th...

[HPCA'20] HDA

Heterogeneous Dataflow Accelerators for Multi-DNN Workloads

Abstract (서론) 증강 현실 및 가상 현실(AR/VR)과 같은 새로운 AI 지원 애플리케이션은 물체 감지, 이미지 분할, 시선 추적, 음성 인식 등과 같은 다양한 하위 작업에 여러 심층 신경망(DNN) 모델을 활용합니다. 하위 작업의 다양성으로 인해 DNN 모델 안팎의 레이어는 작동 방식과 형태가 매우 이질적입니다. 각 레이어가 선호하는 데...

[ICCAD'20] GAMMA

GAMMA: Automating the HW Mapping of DNN Models on Accelerators via Genetic Algorithm

Abstract DNN 계층은 DNN 가속기에서 공간과 시간에 걸쳐 다양한 방식으로 순서화, 타일링 및 스케줄링될 수 있는 다차원 루프입니다. 이러한 선택 중 각가를 매핑이라고 합니다. 매핑은 가속기가 DNN에서 활용할 수 있는 재사용 양을 직접 결정하므로 전체 성능과 효율성에 매우 중요한 역할을 합니다. 또한 모든 DNN 계층에 대해 고정된 매핑을...

[ICCAD'20] SuSy

SuSy: A Programming Model for Productive Construction of High-Performance Systolic Arrays on FPGAs

Abstract Systolic 알고리즘은 FPGA 및 CGRA와 같은 공간 아키텍처에서 가장 중요한 응용 중 하나입니다. 그러나 전통적인 RTL 기반 방법론을 사용하여 주어진 알고리즘에 대해 고성능의 시스톨릭 어레이를 설계하고 구현하는 데는 엄청난 인간의 노력이 필요합니다. 반면, 기존의 고수준 합성(HLS) 도구는 (1) 프로그래머가 코드 재구조...

[JSSC'20] Minkyu Kim, et.al.

An Energy-Efficient Deep Convolutional Neural Network Accelerator Featuring Conditional Computing and Low External Memory Access

Abstract A DCNN accelerator featuring a novel conditional computing scheme that synergistically combines precision cascading (PC) with zero skipping (ZS) to reduce many redundant convolutions that...