논문 아카이브

「논문 아카이브」

[arXiv.org'21] Jie Wang, et.al.

Search for Optimal Systolic Arrays: A Comprehensive Automated Exploration Framework and Lessons Learned

Abstract Odyssey is presented, a comprehensive design space exploration tool named Odyssey that explores the architecture trade-offs for matrix multiplication and convolutional neural network, pro...

[FPGA'21] Sextans

Sextans: A Streaming Accelerator for General-Purpose Sparse-Matrix Dense-Matrix Multiplication

Abstract Sparse-Matrix Dense-Matrix multiplication (SpMM) is the key operator for a wide range of applications including scientific computing, graph processing, and deep learning. Architecting acc...

[PACT'21] Union

Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor Operations on Spatial Accelerators

Abstract (서론) 상업 및 과학 애플리케이션 전반에서 딥 러닝에 대한 극심한 컴퓨팅 수요를 충족하기 위해 데이터 흐름 가속기가 점점 더 인기를 얻고 있습니다. (배경) 이러한 ‘도메인별’ 가속기는 CPU나 GPU처럼 완전히 프로그래밍할 수는 없지만 데이터 오케스트레이션, 즉 데이터 흐름 및 타일링 최적화와 관련하여 다양한 수준의 유연성을 유...

[HPCA'21] S2TA

S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN Acceleration

Abstract Exploiting sparsity is a key technique in accelerating quantized convolutional neural network (CNN) inference on mobile devices. Prior sparse CNN accelerators largely exploit unstructured...

[CAL'21] STONNE

STONNE: Enabling Cycle-Level Microarchitectural Simulation for DNN Inference Accelerators

Abstract 심층 신경망(DNN)의 추론 절차를 가속화하기 위한 특수 아키텍처의 설계는 오늘날 급성장하고 있는 연구 분야입니다. 1세대 경직된 가속기 제안은 고밀도 DNN에 맞춘 단순 고정 데이터 흐름을 사용했지만, 최근의 아키텍처는 다양한 계층 유형, 차원 및 희소성을 효율적으로 지원할 수 있는 유연성을 주장하고 있습니다. 이러한 가속기의 복잡...

[ISCA'21] RaPiD

RaPiD: AI Accelerator for Ultra-low Precision Training and Inference

Abstract 인공지능(AI) 워크로드의 증가하는 보급과 계산 요구는 이러한 워크로드의 실행에 하드웨어 가속기의 광범위한 사용을 초래했습니다. AI 가속기의 성능을 세대에 걸쳐 확장하는 것은 상업적 배포에서의 성공에 매우 중요합니다. AI 워크로드의 본질적인 오류 회복 성능은 정밀도 조정을 통해 성능 및 에너지 효율성을 개선할 수 있는 독특한 기회...

[ASPLOS'21] FAST

A full-stack search technique for domain optimized deep learning accelerators

Abstract (서론): 빠르게 변화하는 딥 러닝 환경은 특정 데이터센터 규모의 워크로드에 최적화된 추론 가속기를 구축할 수 있는 독특한 기회를 제공합니다. (방법론): 우리는 하드웨어-소프트웨어 스택 내의 주요 설계 결정을 포함하는 광범위한 최적화 환경을 정의하는 하드웨어 가속기 검색 프레임워크인 Full-stack Accelerator Sea...

[ISCA'21] TENET

TENET: A Framework for Modeling Tensor Dataflow Based on Relation-centric Notation

author: Yun Liang Abstract 공간 아키텍처에서 텐서 애플리케이션을 가속화하면 높은 성능과 에너지 효율성을 제공하지만, 다양한 데이터 흐름 대안을 평가하기 위한 정확한 성능 모델이 필요합니다. 이러한 모델링은 텐서 데이터 흐름의 표기법과 성능 메트릭의 공식화에 의존합니다. 최근 제안된 컴퓨팅 중심 및 데이터 중심 표기법은 명령형 ...

[ISCA'21] CoSA

CoSA: Scheduling by Constrained Optimization for Spatial Accelerators

Abstract 최근 딥 뉴럴 네트워크(DNN)의 발전은 많은 처리 요소가 공간적으로 배치되고 다단계 메모리 계층과 유연한 인터커넥트를 특징으로 하는 특수 DNN 가속기의 활발한 개발로 이어졌습니다. DNN 가속기는 데이터 재사용을 활용하고 높은 최대 처리량을 달성할 수 있지만, 프로그래머들이 계산을 공간적 및 시간적으로 어떻게 스케줄할지 명시적으로...

[ISCA'21] HASCO

HASCO: Towards Agile HArdware and Software CO-design for Tensor Computation

Abstract 텐서 연산은 방대한 데이터 양과 연산이 요구되기 때문에 전통적인 범용 컴퓨팅 장치로는 처리하기 어렵습니다. 이러한 문제는 하드웨어 가속과 소프트웨어 매핑을 포함한 종합적인 솔루션이 필요합니다. 하드웨어/소프트웨어(HW/SW) 공동 설계는 하드웨어와 소프트웨어를 조화롭게 최적화하여 고품질의 솔루션을 생산합니다. 공동 설계 흐름에서는 ...