[DAC'23] AutoMM
High Performance, Low Power Matrix Multiply Design on ACAP: from Architecture, Design Challenges and DSE Perspectives
Abstract
신경망(NN) 모델의 복잡성이 증가함에 따라 계산에 대한 요구가 높아짐에 따라, AMD는 프로그래머블 로직(PL), CPU 및 전용 AI 엔진(AIE) ASIC을 갖춘 이기종 프로그래머블 시스템 온 칩(SoC), 즉, FP32의 경우 이론적으로 최대 6.4 TFLOPs, INT16의 경우 25.6 TOPs, INT8은 102.4 TO...
Posted by Jinming Zhuang, et.al. on July 9, 2023