返回列表 发布新帖

基于语义嵌入学习的特类视频识别

5 0
admin 发表于 2024-12-14 11:32 | 查看全部 阅读模式

文档名:基于语义嵌入学习的特类视频识别
摘要:暴力视频传播已经成为网络环境治理面临的隐患之一,暴力视频这类特类视频的智能识别技术对维护互联网内容安全具有重要意义.由于采集来源的多样性,暴力视频分布通常呈现较大的类内方差和较小的类间方差,常见的暴力视频识别模型难以适应复杂多变的暴力场景.同时,暴力一词本身具有高度抽象的语义,如何从有限数据中学习通用的暴力语义表示成为一大难点.针对这些问题,本文基于语义嵌入学习的思想,构建了一种新颖的多模态暴力视频识别模型,主要由三部分构成.(1)多模态特征提取.考虑到视频具有多模态属性,采用了三种不同的深度神经网络分别提取表观、运动、音频三种模态的特征表示.(2)多模态特征融合.为获得鲁棒的通用视频表示,设计了一种轻量级的多模态特征融合模块(MultimodalEfficientFusionModule,MEFM),该模块包括共享空间映射与多模态特征交互两部分,在对多模态特征进行充分交互的同时,又能够有效抑制不同模态信息之间的干扰.(3)语义嵌入学习.为适应不同数据分布的暴力数据集,提出了一种基于语义嵌入的多任务学习方法,通过引入中心损失构建暴力语义中心,并采用余弦嵌入损失将暴力样本向中心聚合、非暴力样本进行离散,形成具有语义判别性的特征表示,从而增强了模型的泛化能力,减少了数据噪声的干扰.在VSD2015,ViolentFlows和RWF-2000三个公开数据集上的实验表明,本文提出的暴力视频识别模型较已有方法分别提升了4.79%,0.81%和1.5%,取得了具有竞争力的结果.

Abstract:Asspecialtypeofvideos,violentvideodisseminationhasbecomeoneofthehiddendangersfacingtheIn-ternetenvironment,andintelligentrecognitiontechnologyforviolentvideosisofgreatsignificanceformaintainingInternetcontentsecurity.Duetothediversityofcollectionsources,thedistributionofviolentvideosusuallyshowslargeintra-classvarianceandsmallinter-classvariance,anditisdifficultforcommonviolencerecognitionframeworkstoadapttocomplexandvariableviolentscenarios.Meanwhile,thewordviolenceitselfhashighlyabstractsemantics,anditbecomesamajordifficultytolearnagenericsemanticrepresentationofviolencefromlimiteddata.Inresponsetotheseproblems,wepres-entanovelmultimodalviolentvideorecognitionmodelbasedonsemanticembeddinglearning.Themodelmainlyconsistsofthefollowingthreeparts.(1)Multimodalfeatureextraction.Consideringthatvideoshavemultimodalproperties,weusethreedifferentdeepneuralnetworkstoextractfeaturerepresentationsofthreemodalities,i.e.,appearance,motion,andau-dio.(2)Multimodalfeaturefusion.Toobtainarobustuniversalvideorepresentation,alightweightmultimodalfeaturefu-sionmodule,referredtoasMEFM(MultimodalEfficientFusionModule),isdesignedinthispaper.Themoduleincludestwoparts:commonspacemappingandmultimodalfeatureinteraction,whichcaneffectivelysuppresstheinterferencebe-tweendifferentmodalinformationwhilefullyinteractingwithmultimodalfeatures.(3)Semanticembeddinglearning.Toaccommodateviolencedatasetsfromdifferentsources,weproposeamulti-tasklearningmethodbasedonsemanticembed-ding,whichcomputesthesemanticcenterofviolencebyintroducingacenterlossandusescosineembeddinglosstoaggre-gateviolentsamplestowardthecenterwhilediscretewithnon-violentsamplestoformasemanticdiscriminativefeaturerepresentation,thusenhancingthegeneralizationabilityofthemodelandreducingthenoiseinterference.Experimentsonthreepubliclyavailabledatasets,VSD2015,ViolentFlows,andRWF-2000,demonstratethattheviolencevideorecognitionframeworkproposedinthispaperachievescompetitiveresultsbyimproving4.79%,0.81%,and1.5%respectively,overthestateofthearts.

作者:吴晓雨   蒲禹江   王生进   刘子豪 Author:WUXiao-yu   PUYu-jiang   WANGSheng-jin   LIUZi-hao
作者单位:中国传媒大学信息与通信工程学院,北京100024;媒体融合与传播国家重点实验室(中国传媒大学),北京100024中国传媒大学信息与通信工程学院,北京100024清华大学电子工程系,北京100084
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2023, 51(11)
分类号:TP391.4
关键词:暴力视频识别  多模态特征融合  语义嵌入  多任务学习  
Keywords:violentvideorecognition  multimodalfeaturefusion  semanticembedding  multi-tasklearning  
机标分类号:TP391.41TP181TN919.82
在线出版日期:2024年2月1日
基金项目:基于语义嵌入学习的特类视频识别[
期刊论文]  电子学报--2023, 51(11)吴晓雨  蒲禹江  王生进  刘子豪暴力视频传播已经成为网络环境治理面临的隐患之一,暴力视频这类特类视频的智能识别技术对维护互联网内容安全具有重要意义.由于采集来源的多样性,暴力视频分布通常呈现较大的类内方差和较小的类间方差,常见的暴力视频识...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        基于语义嵌入学习的特类视频识别  Special Video Recognition Based on Semantic Embedding Learning

基于语义嵌入学习的特类视频识别.pdf
2024-12-14 11:32 上传
文件大小:
2.2 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号
关灯 返回顶部
快速回复 返回顶部 返回列表