文档名:基于全局注意力的正交融合图像描述符
摘要:图像描述符是计算机视觉任务重要研究对象,被广泛应用于图像分类、分割、识别与检索等领域.深度图像描述符在局部特征提取分支缺少高维特征的空间与通道信息的关联性,导致局部特征表达的信息不充分.为此,提出一种融合局部、全局特征的图像描述符,在局部特征提取分支进行膨胀卷积提取多尺度特征图,输出的特征拼接后经过含有多层感知器的全局注意力机制捕捉具有关联性的通道-空间信息,再加工后输出最终的局部特征;高维的全局分支经过全局池化和全卷积生成全局特征向量;提取局部特征在全局特征向量上的正交值与全局特征串联后聚合形成最终的描述符.同时,在特征约束方面,使用包含子类心的角域度损失函数增大模型在大规模数据集的鲁棒性.在国际公开数据集Roxford5k和Rparis6k上进行实验,所提出描述符的平均检索精度在medium和hard模式分别为81.87%和59.74%以及91.61%和79.12%,比深度正交融合描述符分别提升了1.70%,1.56%,2.00%和1.83%,较其他图像描述符具有更好的检索精度.
Abstract:Imagedescriptorsareimportantresearchobjectsincomputervisiontasksandarewidelyappliedtothefieldsofimageclassification,segmentation,recognition,andretrieval.Thedepthimagedescriptorlacksthecorrelationbetweenthehigh-dimensionalfeaturespaceandchannelinformationinthelocalfeatureextractionbranch,resultingininsufficientinformationforlocalfeatureexpression.Therefore,animagedescriptorcombininglocalandglobalfeatureswasproposed.Themulti-scalefeaturemapwasextractedthroughdilatedconvolutioninthelocalfeatureextractionbranch.Aftertheoutputfeatureswerespliced,therelevantchannel-spaceinformationwascapturedthroughaglobalattentionmechanismwithamultilayerperceptron.Thenthefinallocalfeatureswereoutputafterprocessing.Thehigh-dimensionalglobalbranchesgeneratedglobalfeaturevectorsthroughglobalpoolingandfullconvolution.Theorthogonalvaluesoflocalfeatureswereextractedontheglobalfeaturevector,andwerethenconcatenatedwiththeglobalfeaturestoformthefinaldescriptor.Atthesametime,therobustnessofthemodelinlarge-scaledatasetswereenhancedbyemployingtheangulardomainlossfunctioncontainingthesub-classcenter.TheexperimentalresultsonthepubliclyavailabledatasetsRoxford5kandRparis6kdemonstratedthatinmediumandhardmodes,theaverageretrievalaccuracyofthisdescriptorreached81.87%and59.74%,and91.61%and79.12%,respectively.Thisrepresentedanimprovementof1.70%and1.56%,and2.00%and1.83%comparedtothatofdeeporthogonalfusiondescriptors.Itexhibitedsuperiorretrievalaccuracyoverotherimagedescriptors.
作者:艾列富 陶勇 蒋常玉 Author:AILiefu TAOYong JIANGChangyu
作者单位:安庆师范大学计算机与信息学院,安徽安庆246133安庆师范大学计算机与信息学院,安徽安庆246133;安徽三联学院智慧交通现代产业学院,安徽合肥230601
刊名:图学学报 ISTICPKU
Journal:JournalofGraphics
年,卷(期):2024, 45(3)
分类号:TP391
关键词:图像描述符 膨胀卷积 全局注意力 特征融合 子类心角度域损失
Keywords:imagedescriptor dilatedconvolution globalattention featurefusion sub-centerarcface
机标分类号:TP391.41TN911.73R730.4
在线出版日期:2024年6月19日
基金项目:基于全局注意力的正交融合图像描述符[
期刊论文] 图学学报--2024, 45(3)艾列富 陶勇 蒋常玉图像描述符是计算机视觉任务重要研究对象,被广泛应用于图像分类、分割、识别与检索等领域.深度图像描述符在局部特征提取分支缺少高维特征的空间与通道信息的关联性,导致局部特征表达的信息不充分.为此,提出一种融合局部...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于全局注意力的正交融合图像描述符 Orthogonal fusion image descriptor based on global attention
基于全局注意力的正交融合图像描述符.pdf
- 文件大小:
- 1.69 MB
- 下载次数:
- 60
-
高速下载
|
|