논문 아카이브

「논문 아카이브」

[TCAD'23] TensorLib

TensorLib: Automatic Generation of Spatial Accelerator for Tensor Algebra

author: Yun Liang Abstract 텐서 대수는 머신 러닝 애플리케이션, 데이터 분석 등 다양한 영역에서 활용되고 있습니다. 공간 하드웨어 가속기는 텐서 대수 애플리케이션의 성능을 향상시키는 데 널리 사용됩니다. 복잡한 하드웨어 아키텍처와 풍부한 설계 공간을 갖추고 있습니다. 수동 구현에 기반한 기존 접근 방식은 프로그래밍 생산성이 낮...

[arXiv'23] ChipGPT

ChipGPT: How far are we from natural language hardware design

Abstract ChatGPT와 같은 대형 언어 모델(LLM)이 전례 없는 기계 지능을 보여주면서, 자연어 상호작용을 통해 하드웨어 엔지니어가 더 효율적인 논리 설계를 실현하는 데 큰 성과를 보였습니다. LLMs가 지원하는 하드웨어 설계 프로세스의 잠재력을 평가하기 위해, 이 연구는 자연어 사양에서 하드웨어 논리 설계를 생성하는 자동화된 설계 환경을...

[JSEN'23] F. Spagnolo, et.al.

Design of a Low-Power Super-Resolution Architecture for Virtual Reality Wearable Devices

Abstract A custom hardware architecture able to reconstruct high-resolution images by treating foveal region (FR) and peripheral region (PR) through accurate and inaccurate operations, respectivel...

[FPGA'23] CHARM

CHARM: Composing Heterogeneous AcceleRators for Matrix Multiply on Versal ACAP Architecture

Abstract (서론): 딥러닝 애플리케이션에서 가장 많이 사용되는 커널 중 하나는 Dense Matrix Multiply(MM)입니다. 이러한 애플리케이션의 높은 계산 요구를 충족시키기 위해, FPGA와 전용 ASIC 가속기를 특징으로 하는 이종 아키텍처가 유망한 플랫폼으로 떠오르고 있습니다. 예를 들어, AMD/Xilinx Versal ACAP...

[ICCAD'22] HECTOR

HECTOR: A Multi-level Intermediate Representation for Hardware Synthesis Methodologies

Abstract (서론): 하드웨어 합성은 합성 가능한 레지스터 전달 레벨(RTL) 코드를 생성하기 위한 복잡한 과정을 필요로 함. HLS는 고수준 설명을 자동으로 하드웨어 설계로 변환할 수 있으며, 하드웨어 생성기는 특정 응용 프로그램을 위한 도메인 특화 언어 및 합성 흐름을 채택. (한계): HLS 도구의 구현은 일반적으로 RTL의 약한 ...

[TRTS'22] TAPA

TAPA: A Scalable Task-parallel Dataflow Programming Framework for Modern FPGAs with Co-optimization of HLS and Physical Design

Abstract 이 논문에서는 C++ 태스크 병렬 데이터플로우 프로그램을 고주파수 FPGA 가속기로 컴파일하는 종단 간 프레임워크인 TAPA를 제안합니다. 기존 솔루션과 비교할 때, TAPA는 두 가지 주요 장점을 가지고 있습니다. 첫째, TAPA는 사용자가 유연하고 복잡한 태스크 간 통신 구조를 쉽게 표현할 수 있도록 편리한 API 세트를 제공합니...

[DAC'22] EMS

EMS: efficient memory subsystem synthesis for spatial accelerators

author: Yun Liang Abstract (서론): Spatila Accelerator는 동종 PE 어레이를 통해 대규모 병렬 처리를 제공하며, PE Array의 데이터 흐름과 온칩 메모리를 통해 효율적인 데이터 재사용을 가능하게 합니다. 이전의 많은 연구에서 성능 분석과 자동 생성을 포함해 공간 가속기의 데이터 흐름 아키텍처를 연구해 왔습...

[TRTS'22] FPGA HLS Today

FPGA HLS Today: Successes, Challenges, and Opportunities

Abstract The progress of the deployment of HLS technology is assessed and the successes in several application domains are highlighted, including deep learning, video transcoding, graph processing...

[FPGA'22] HeteroFlow

HeteroFlow: An Accelerator Programming Model with Decoupled Data Placement for Software-Defined FPGAs

Abstract FPGA가 장착된 이기종 컴퓨팅 시스템으로 고성능을 달성하려면 데이터 배치와 컴퓨팅 스케줄링을 함께 최적화하여 온칩 및 오프칩 메모리 액세스에 대한 데이터 재사용과 대역폭 활용을 극대화하는 것이 중요합니다. 그러나 FPGA 가속기에 대한 데이터 배치를 최적화하는 것은 복잡한 작업입니다. 일련의 고급 최적화를 적용하려면 대상 FPGA ...

[TRTS'21] Yi-Hsiang Lai, et.al.

Programming and Synthesis for Software-defined FPGA Acceleration: Status and Future Prospects

Abstract This survey describes the progression and future prospects of the ongoing journey in significantly improving the software programmability of FPGAs and provides a taxonomy of the essential...