文档摘要:基于注意力的模型处理计算机视觉任务时,注意力机制的全局特征提取能力较弱,因此,提出了一种基于交叉注意力的双视图视觉特征提取模型VisFEM.模型采用编码器-解码器模型架构,通过交叉注意力机制从双视图中提取粗细粒度两种特征,并将不同编码器的输出特征融合,从而提高模型的全局特征提取能力.在ImageNet高清数据集的分类中准确率达到84.3%,在检索任务中正确召回率达到0.39.
Abstract:Whenusingattentionbasedmodelstoprocesscomputervisiontasks,theglobalfeatureextractionabilityoftheattentionmechanismisweak.Therefore,acrossattentionbaseddualviewvisualfeatureex-tractionmodelVisFEMisproposed.Themodeladoptsanencoder-decodermodelarchitecture,extractscoarse-grainedandfine-grainedfeaturesfromdualviewsthroughcrossattentionmechanism,andfusestheoutputfeaturesofdifferentencoderstoimprovetheglobalfeatureextractionabilityofthemodel.IntheclassificationoftheImageNethigh-definitiondataset,theaccuracyratereaches84.3%,andintheretrievaltask,thecorrectrecallratereaches0.39.
作者:冯强 赵佳 Author:FENGQiang ZHAOJia
作者单位:长春工业大学计算机科学与工程学院,长春130051长春工程学院人工智能技术研究院,长春130012
刊名:长春工程学院学报(自然科学版)
Journal:JournalofChangchunInstituteofTechnology(NaturalScienceEdition)
年,卷(期):2024, 25(1)
分类号:TP183
关键词:深度学习 计算机视觉 编码器-解码器 交叉注意力机制
Keywords:deeplearning computervision encoder-decoder crossattentionmechanism
机标分类号:TP391.41TN911.7TP181
在线出版日期:2024年4月28日
基金项目:国家自然科学基金,长春市科技发展计划重点研发项目,吉林省科技发展计划重点研发项目,吉林省教育科学十四五规划课题VisFEM:一种基于交叉注意力的双视图视觉特征提取模型[
期刊论文] 长春工程学院学报(自然科学版)--2024, 25(1)冯强 赵佳基于注意力的模型处理计算机视觉任务时,注意力机制的全局特征提取能力较弱,因此,提出了一种基于交叉注意力的双视图视觉特征提取模型VisFEM.模型采用编码器-解码器模型架构,通过交叉注意力机制从双视图中提取粗细粒度两...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:深度学习,计算机视觉,编码器-解码器,交叉注意力机制,
- 文件大小:
- 692.32 KB
- 下载次数:
- 60
-
高速下载
|
|