文档名:基于语义嵌入学习的特类视频识别
摘要:暴力视频传播已经成为网络环境治理面临的隐患之一,暴力视频这类特类视频的智能识别技术对维护互联网内容安全具有重要意义.由于采集来源的多样性,暴力视频分布通常呈现较大的类内方差和较小的类间方差,常见的暴力视频识别模型难以适应复杂多变的暴力场景.同时,暴力一词本身具有高度抽象的语义,如何从有限数据中学习通用的暴力语义表示成为一大难点.针对这些问题,本文基于语义嵌入学习的思想,构建了一种新颖的多模态暴力视频识别模型,主要由三部分构成.(1)多模态特征提取.考虑到视频具有多模态属性,采用了三种不同的深度神经网络分别提取表观、运动、音频三种模态的特征表示.(2)多模态特征融合.为获得鲁棒的通用视频表示,设计了一种轻量级的多模态特征融合模块(MultimodalEfficientFusionModule,MEFM),该模块包括共享空间映射与多模态特征交互两部分,在对多模态特征进行充分交互的同时,又能够有效抑制不同模态信息之间的干扰.(3)语义嵌入学习.为适应不同数据分布的暴力数据集,提出了一种基于语义嵌入的多任务学习方法,通过引入中心损失构建暴力语义中心,并采用余弦嵌入损失将暴力样本向中心聚合、非暴力样本进行离散,形成具有语义判别性的特征表示,从而增强了模型的泛化能力,减少了数据噪声的干扰.在VSD2015,ViolentFlows和RWF-2000三个公开数据集上的实验表明,本文提出的暴力视频识别模型较已有方法分别提升了4.79%,0.81%和1.5%,取得了具有竞争力的结果.
Abstract:Asspecialtypeofvideos,violentvideodisseminationhasbecomeoneofthehiddendangersfacingtheIn-ternetenvironment,andintelligentrecognitiontechnologyforviolentvideosisofgreatsignificanceformaintainingInternetcontentsecurity.Duetothediversityofcollectionsources,thedistributionofviolentvideosusuallyshowslargeintra-classvarianceandsmallinter-classvariance,anditisdifficultforcommonviolencerecognitionframeworkstoadapttocomplexandvariableviolentscenarios.Meanwhile,thewordviolenceitselfhashighlyabstractsemantics,anditbecomesamajordifficultytolearnagenericsemanticrepresentationofviolencefromlimiteddata.Inresponsetotheseproblems,wepres-entanovelmultimodalviolentvideorecognitionmodelbasedonsemanticembeddinglearning.Themodelmainlyconsistsofthefollowingthreeparts.(1)Multimodalfeatureextraction.Consideringthatvideoshavemultimodalproperties,weusethreedifferentdeepneuralnetworkstoextractfeaturerepresentationsofthreemodalities,i.e.,appearance,motion,andau-dio.(2)Multimodalfeaturefusion.Toobtainarobustuniversalvideorepresentation,alightweightmultimodalfeaturefu-sionmodule,referredtoasMEFM(MultimodalEfficientFusionModule),isdesignedinthispaper.Themoduleincludestwoparts:commonspacemappingandmultimodalfeatureinteraction,whichcaneffectivelysuppresstheinterferencebe-tweendifferentmodalinformationwhilefullyinteractingwithmultimodalfeatures.(3)Semanticembeddinglearning.Toaccommodateviolencedatasetsfromdifferentsources,weproposeamulti-tasklearningmethodbasedonsemanticembed-ding,whichcomputesthesemanticcenterofviolencebyintroducingacenterlossandusescosineembeddinglosstoaggre-gateviolentsamplestowardthecenterwhilediscretewithnon-violentsamplestoformasemanticdiscriminativefeaturerepresentation,thusenhancingthegeneralizationabilityofthemodelandreducingthenoiseinterference.Experimentsonthreepubliclyavailabledatasets,VSD2015,ViolentFlows,andRWF-2000,demonstratethattheviolencevideorecognitionframeworkproposedinthispaperachievescompetitiveresultsbyimproving4.79%,0.81%,and1.5%respectively,overthestateofthearts.
作者:吴晓雨 蒲禹江 王生进 刘子豪 Author:WUXiao-yu PUYu-jiang WANGSheng-jin LIUZi-hao
作者单位:中国传媒大学信息与通信工程学院,北京100024;媒体融合与传播国家重点实验室(中国传媒大学),北京100024中国传媒大学信息与通信工程学院,北京100024清华大学电子工程系,北京100084
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2023, 51(11)
分类号:TP391.4
关键词:暴力视频识别 多模态特征融合 语义嵌入 多任务学习
Keywords:violentvideorecognition multimodalfeaturefusion semanticembedding multi-tasklearning
机标分类号:TP391.41TP181TN919.82
在线出版日期:2024年2月1日
基金项目:基于语义嵌入学习的特类视频识别[
期刊论文] 电子学报--2023, 51(11)吴晓雨 蒲禹江 王生进 刘子豪暴力视频传播已经成为网络环境治理面临的隐患之一,暴力视频这类特类视频的智能识别技术对维护互联网内容安全具有重要意义.由于采集来源的多样性,暴力视频分布通常呈现较大的类内方差和较小的类间方差,常见的暴力视频识...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于语义嵌入学习的特类视频识别 Special Video Recognition Based on Semantic Embedding Learning
基于语义嵌入学习的特类视频识别.pdf
- 文件大小:
- 2.2 MB
- 下载次数:
- 60
-
高速下载
|
|