VisFEM一种基于交叉注意力的双视图视觉特征提取模型

黄金阳光 · 发表于 2024-10-3 23:23

文档摘要：基于注意力的模型处理计算机视觉任务时,注意力机制的全局特征提取能力较弱,因此,提出了一种基于交叉注意力的双视图视觉特征提取模型VisFEM.模型采用编码器-解码器模型架构,通过交叉注意力机制从双视图中提取粗细粒度两种特征,并将不同编码器的输出特征融合,从而提高模型的全局特征提取能力.在ImageNet高清数据集的分类中准确率达到84.3%,在检索任务中正确召回率达到0.39.

Abstract：Whenusingattentionbasedmodelstoprocesscomputervisiontasks,theglobalfeatureextractionabilityoftheattentionmechanismisweak.Therefore,acrossattentionbaseddualviewvisualfeatureex-tractionmodelVisFEMisproposed.Themodeladoptsanencoder-decodermodelarchitecture,extractscoarse-grainedandfine-grainedfeaturesfromdualviewsthroughcrossattentionmechanism,andfusestheoutputfeaturesofdifferentencoderstoimprovetheglobalfeatureextractionabilityofthemodel.IntheclassificationoftheImageNethigh-definitiondataset,theaccuracyratereaches84.3%,andintheretrievaltask,thecorrectrecallratereaches0.39.

作者：冯强赵佳 Author：FENGQiang ZHAOJia
作者单位：长春工业大学计算机科学与工程学院,长春130051长春工程学院人工智能技术研究院,长春130012
刊名：长春工程学院学报（自然科学版）
Journal：JournalofChangchunInstituteofTechnology(NaturalScienceEdition)
年，卷(期)：2024, 25(1)
分类号：TP183
关键词：深度学习  计算机视觉  编码器-解码器  交叉注意力机制
Keywords：deeplearning  computervision  encoder-decoder  crossattentionmechanism
机标分类号：TP391.41TN911.7TP181
在线出版日期：2024年4月28日
基金项目：国家自然科学基金，长春市科技发展计划重点研发项目，吉林省科技发展计划重点研发项目，吉林省教育科学十四五规划课题VisFEM:一种基于交叉注意力的双视图视觉特征提取模型[
期刊论文]  长春工程学院学报（自然科学版）--2024, 25(1)冯强  赵佳基于注意力的模型处理计算机视觉任务时,注意力机制的全局特征提取能力较弱,因此,提出了一种基于交叉注意力的双视图视觉特征提取模型VisFEM.模型采用编码器-解码器模型架构,通过交叉注意力机制从双视图中提取粗细粒度两...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

关键词：深度学习,计算机视觉,编码器-解码器,交叉注意力机制,

2024-10-3 23:23 上传

VisFEM一种基于交叉注意力的双视图视觉特征提取模型.pdf

文件大小:: 692.32 KB

下载次数:: 60

高速下载

VisFEM一种基于交叉注意力的双视图视觉特征提取模型

相关帖子

能源电力

化工

建筑工程

机械

电子信息

医药

科学