논문 아카이브

「논문 아카이브」

[FPGA'20] AutoDSE

AutoDSE: Enabling Software Programmers Design Efficient FPGA Accelerators

Abstract 맞춤형 컴퓨팅을 위해 데이터센터의 가속기로 FPGA를 채택하는 것이 대세가 되고 있지만, FPGA는 프로그래밍하기 어렵기 때문에 소프트웨어 프로그래머에게는 가파른 학습 곡선이 생깁니다. 가속기 설계자는 하이레벨 합성(HLS)의 도움을 받더라도 최적의 성능을 달성하기 위해 여전히 수동으로 코드를 재구성하고 번거로운 파라미터 튜닝을 수행...

[JETCAS'20] SRNPU

SRNPU: An Energy-Efficient CNN-Based Super-Resolution Processor With Tile-Based Selective Super-Resolution in Mobile Devices

Abstract The SRNPU is the first ASIC implementation of the CNN-based SR algorithm which supports real-time Full-HD up-scaling and achieves higher restoration performance and power efficiency than ...

[ISPASS'20] ASTRA-SIM

ASTRA-SIM: Enabling SW/HW Co-Design Exploration for Distributed DL Training Platforms

Abstract Modern Deep Learning systems heavily rely on distributed training over high-performance accelerator (e.g., TPU, GPU)-based hardware platforms. Examples today include Google's Cloud TPU an...

[ISPASS'20] SCALE-Sim

A Systematic Methodology for Characterizing Scalability of DNN Accelerators using SCALE-Sim

Abstract 딥 러닝 워크로드의 계산 수요는 잘 알려져 있으며, 이는 GPU 또는 전용 하드웨어 가속기와 같은 강력한 병렬 컴퓨팅 플랫폼의 주요 동기입니다. 이러한 워크로드의 엄청난 고유 병렬성은 주어진 작업에 대해 더 많은 컴퓨팅 하드웨어를 제공함으로써 더 높은 성능을 추출할 수 있게 합니다. 이 전략은 단일 시스템에 가능한 한 많은 병렬 컴퓨...

[TC'20] Xi Zeng, et.al.

Addressing Irregularity in Sparse Neural Networks Through a Cooperative Software/Hardware Approach

Abstract A software-based coarse-grained pruning technique, together with local quantization, significantly reduces the size of indexes and improves the network compression ratio and a multi-core ...

[ISCA'20] DSAGEN

DSAGEN: Synthesizing Programmable Spatial Accelerators

Abstract 도메인 특화 하드웨어 가속기는 범용 프로세서에 비해 수십 배의 속도 향상과 에너지 효율성을 제공할 수 있습니다. 그러나 이러한 가속기를 설계하고 소프트웨어 스택을 개발하는 데는 광범위한 수작업이 필요합니다. 자동 ASIC 생성(예: HLS)은 하드웨어가 유연하지 않기 때문에 충분하지 않을 수 있습니다. 이상적인 가속기 생성 프레임워크...

[ICASSP'20] dMazeRunner

dMazeRunner: Optimizing Convolutions on Dataflow Accelerators

Abstract (서론): 컨볼루션 신경망(CNN)은 데이터플로우 가속기에서 효율적으로 실행될 수 있습니다. (한계): 그러나 가속기의 계산 및 메모리 자원에서 컨볼루션을 실행하는 광대한 공간은 프로그래머가 컨볼루션을 자동으로 효율적으로 가속화하는 것을 어렵게 하고, 아키텍트가 효율적인 가속기 설계를 달성하는 것을 어렵게 만듭니다. (방법론): ...

[MICRO'20] MAESTRO

MAESTRO: A Data-Centric Approach to Understand Reuse, Performance, and Hardware Cost of DNN Mappings

Abstract The efficiency of an accelerator depends on three factors-mapping, deep neural network (DNN) layers, and hardware-constructing extremely complicated design space of DNN accelerators. To d...

[ASPLOS'20] FlexTensor

FlexTensor: An Automatic Schedule Exploration and Optimization Framework for Tensor Computation on Heterogeneous System

Abstract (서론): 텐서 계산은 기계 학습, 데이터 분석, 과학 계산 등 다양한 분야에서 매우 중요한 역할을 합니다. 텐서 계산의 널리 채택과 엄청난 계산 비용으로 인해 GPU 및 FPGA와 같은 이종 하드웨어 가속기에서 유연하고 이식 가능하며 고성능의 라이브러리 구현에 대한 높은 수요가 있습니다. (한계): 그러나 현재의 텐서 라이브러리 ...

[HPCA'20] SIGMA

SIGMA: A Sparse and Irregular GEMM Accelerator with Flexible Interconnects for DNN Training

Abstract The advent of Deep Learning (DL) has radically transformed the computing industry across the entire spectrum from algorithms to circuits. As myriad application domains embrace DL, it has ...