논문 아카이브

「논문 아카이브」

[TVLSI'24] Pengbo Yu, et.al.

An Energy Efficient Soft SIMD Microarchitecture and Its Application on Quantized CNNs

Abstract 오늘날의 응용 프로그램, 예를 들어 기계 학습(ML) 알고리즘의 증가하는 계산 복잡성과 에너지 소비는 기본 하드웨어의 능력을 압박할 뿐만 아니라 엣지에서의 광범위한 배포를 크게 제한합니다. 이러한 문제를 해결하기 위해 알고리즘이 노출한 기회를 활용한 새로운 아키텍처 솔루션이 필요합니다. 예를 들어, 작은 비트 너비 피연산자 양자화에 ...

[TCAS-I'24] HDSuper

HDSuper: High-Quality and High Computational Utilization Edge Super-Resolution Accelerator With Hardware-Algorithm Co-Design Techniques

Abstract 초해상도(SR) 기술은 저화질 이미지에서 고화질 이미지를 생성하는 데 사용됩니다. 다양한 신경망은 SR 가속기에서 뛰어난 이미지 재구성 품질을 입증했습니다. 그러나 SR 네트워크를 엣지 디바이스에 배포하는 것은 알고리즘 매개변수, 계산 복잡성 및 외부 메모리 접근으로 인한 자원 및 전력 소비로 인해 제한됩니다. 이 연구는 하드웨어 알...

[DATE'24] WideSA

WideSA: A High Array Utilization Mapping Scheme for Uniform Recurrences on ACAP

Abstract (서론) Versal 적응형 컴퓨팅 가속화 플랫폼(ACAP)은 AI 엔진(AIE)과 재구성 가능한 패브릭을 결합한 새로운 아키텍처입니다. 이 아키텍처는 딥 러닝, 고성능 연산, 신호 처리 등 다양한 영역에서 균일한 반복을 위한 상당한 가속 잠재력을 제공합니다. (배경) 그러나 이러한 연산을 효율적으로 Versal ACAP 아키텍처에...

[HPCA'24] POM

An Optimizing Framework on MLIR for Efficient FPGA-based Accelerator Generation

Abstract 제한된 리소스 및 전력 예산으로 컴퓨팅 성능에 대한 수요가 증가함에 따라 FPGA와 같은 맞춤형 가속기에 애플리케이션을 배포하는 것이 두드러지게 나타나고 있습니다. 그러나 FPGA 프로그래밍은 결코 간단하지 않습니다. 기존의 하이레벨 합성(HLS) 툴은 생산성을 어느 정도 향상시키기는 하지만, FPGA 중심의 변환과 최적화를 충분히 ...

[CAL'24] DeMM

DeMM: A Decoupled Matrix Multiplication Engine Supporting Relaxed Structured Sparsity

Abstract 딥러닝(DL)은 다양한 애플리케이션 영역에서 전례 없는 성공을 거두었습니다. 한편, 모델 가지치기는 모바일 애플리케이션에서 정확도를 저하시키지 않으면서도 DL 모델의 사용 공간을 줄일 수 있는 실행 가능한 솔루션으로 부상했습니다. 고밀도 DL 모델용으로 구축된 매트릭스 엔진이 가지치기된 모델도 처리할 수 있도록 하기 위해 가지치기된 ...

[TCAD'23] Rubick

Rubick: A Unified Infrastructure for Analyzing, Exploring, and Implementing Spatial Architectures via Dataflow Decomposition

author: Yun Liang Jianwei Yin Abstract 빠르게 성장하고 있는 텐서 애플리케이션은 대규모 PE 어레이와 풍부한 상호 연결 리소스를 갖춘 공간 아키텍처에서 구현될 때 엄청난 데이터 흐름 대안을 제시합니다. 기존 연구에서는 데이터 흐름에 대한 다양한 표기법과 성능 모델 을 개발했습니다. 이러...

[TCAS-I'23] ACNPU

ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator With Decoupled Asymmetric Convolution

Abstract The ACNPU enhances image quality by 0.34dB with a 27-layer model, but needs 36% less complexity than FSRCNN, while maintaining a similar model size, with the decoupled asymmetric convolut...

[DAC'23] AutoMM

High Performance, Low Power Matrix Multiply Design on ACAP: from Architecture, Design Challenges and DSE Perspectives

Abstract 신경망(NN) 모델의 복잡성이 증가함에 따라 계산에 대한 요구가 높아짐에 따라, AMD는 프로그래머블 로직(PL), CPU 및 전용 AI 엔진(AIE) ASIC을 갖춘 이기종 프로그래머블 시스템 온 칩(SoC), 즉, FP32의 경우 이론적으로 최대 6.4 TFLOPs, INT16의 경우 25.6 TOPs, INT8은 102.4 TO...

[DAC'23] Rubick

Rubick: A Synthesis Framework for Spatial Architectures via Dataflow Decomposition

author Yun Liang Jianwei Yin Abstract 데이터 흐름은 텐서 애플리케이션을 위해 설계된 공간 아키텍처에 매우 중요합니다. 기존 연구에서는 데이터 흐름을 위한 다양한 표기법과 하드웨어 생성 프레임워크를 개발했습니다. 그러나 표기법과 하위 수준의 세부 사항 간의 의미적 차이로 인해 이러한 표기...

[CS'23] Rui Xu, et.al.

A Survey of Design and Optimization for Systolic Array-based DNN Accelerators

Abstract The aim of this survey is to provide researchers with knowledge of the state-of-the-art in the systolic array architecture and motivate them to design highly efficient DNN accelerators of...