文档名:动态深度神经网络的硬件加速设计及FPGA实现
摘要:基于现场可编程门阵列(FieldProgrammableGateArray,FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备.然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题.为此,提出了动态深度神经网络的实现方法.通过引入模型定点压缩技术和并行的卷积分块方法,并结合低延迟的数据调度策略,实现了高效卷积计算.同时对神经网络动态退出机制中引入的交叉熵损失函数,提出便于硬件实现的简化方法,设计专用的加速电路.根据所提方法,在Xilinxxc7z030平台部署了具有动态深度的ResNet110网络,平台最高可完成2.78×104MOPS(MillionOperationsperSecond)的乘积累加运算,并支持1.25MOPS的自然指数运算和0.125MOPS的对数运算,相较于i7-5960x处理器加速比达到287%,相较于NVIDIATITANX处理器加速比达到145%.
作者:王鹏 任轶群 范毓洋 张嘉诚 Author:WANGPeng RENYiqun FANYuyang ZHANGJiacheng
作者单位:中国民航大学民航航空器适航审定技术重点实验室,天津300300;中国民航大学安全科学与工程学院,天津300300中国民航大学民航航空器适航审定技术重点实验室,天津300300;中国民航大学电子信息与自动化学院,天津300300中国民航大学民航航空器适航审定技术重点实验室,天津300300
刊名:电讯技术
Journal:TelecommunicationEngineering
年,卷(期):2024, 64(3)
分类号:TP302TN79
关键词:边缘设备 动态深度神经网络 动态退出机制 硬件加速 加速电路
Keywords:edgedevice dynamicdeepneuralnetwork dynamicexitmechanism hardwareacceleration acceleratingcircuit
机标分类号:TP391.41TN911.22TN431.2
在线出版日期:2024年4月16日
基金项目:国家重点研发计划,中央高校基本科研业务费动态深度神经网络的硬件加速设计及FPGA实现[
期刊论文] 电讯技术--2024, 64(3)王鹏 任轶群 范毓洋 张嘉诚基于现场可编程门阵列(FieldProgrammableGateArray,FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备.然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
动态深度神经网络的硬件加速设计及FPGA实现 Design and FPGA Implementation of Dynamic Deep Neural Network Hardware Acceleration
动态深度神经网络的硬件加速设计及FPGA实现.pdf
- 文件大小:
- 1.76 MB
- 下载次数:
- 60
-
高速下载
|
|