返回列表 发布新帖

面向现代GPU的Winograd卷积加速研究

3 0
admin 发表于 2024-12-14 03:59 | 查看全部 阅读模式

文档名:面向现代GPU的Winograd卷积加速研究
摘要:卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(FastFourierTransform,FFT)和Winograd在内的快速卷积算法被提出.Winograd卷积可被用于提高小卷积核的推理性能,是目前卷积神经网络中的主流实现方法.然而,Winograd卷积在许多高度优化的深度神经网络库和深度学习编译器中的实现比较低效.由于Winograd卷积的四个阶段的复杂数据依赖关系,面向GPU对其进行优化非常具有挑战性.本文针对现代GPU体系结构优化了Winograd卷积算子的性能.本文提出了Winograd计算阶段的等价变化及其利用TensorCore进行计算的无同步实现,并进一步提出了利用不同GPU内存层级的部分计算核融合方法PKF(PartialKernelFusion).基于张量虚拟机(TensorVirtualMachine,TVM)和代码重构器PKF-Reconstruc?tor(PartialKernelFusionReconstructor),实现了高性能的Winograd卷积.对真实应用中卷积神经网络的卷积算子的评估表明,与cuDNN相比,本文所提算法实现了7.58~13.69倍的性能提升.

作者:童敢   黄立波   吕雅帅 Author:TONGGan   HUANGLi-bo   LYUYa-shuai
作者单位:国防科技大学计算机学院,湖南长沙410073华为技术有限公司,北京100031
刊名:电子学报
Journal:ActaElectronicaSinica
年,卷(期):2024, 52(1)
分类号:TP183
关键词:Winograd卷积  低精度  部分计算核融合  卷积加速  GPU内存层级  TensorCore  
Keywords:Winogradconvolution  lowprecision  partialkernelfusion  acceleratingconvolution  GPUmemoryhierarchy  TensorCore  
机标分类号:TP391.41O189.13TP183
在线出版日期:2024年4月16日
基金项目:面向现代GPU的Winograd卷积加速研究[
期刊论文]  电子学报--2024, 52(1)童敢  黄立波  吕雅帅卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(FastFourierTransform,FFT)和Winograd在内的快速卷积算法被提出.Winograd卷积可被用于提高小卷积...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        面向现代GPU的Winograd卷积加速研究  Research on Winograd Convolution Acceleration for Modern GPU

面向现代GPU的Winograd卷积加速研究.pdf
2024-12-14 03:59 上传
文件大小:
2.26 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号
关灯 返回顶部
快速回复 返回顶部 返回列表