文档名:基于音视频融合的视频标题生成
视频标题生成(videocaptioning)是联结计算机视觉和自然语言处理,实现用自然语言描述视频的主要内容的技术.提出了一种基于音视频融合的视频标题生成算法,分别利用两个独立的编码器对视频中的视觉和音频进行特征提取,并结合模态注意力机制和解码器生成句子.在MSR-VTT数据集上进行多组对比实验,验证了算法的优势.
作者:王力夏海轮郭彩丽
作者单位:北京邮电大学信息与通信工程学院先进信息网络北京实验室,北京100876
母体文献:第十五届全国信号和智能信息处理与应用学术会议论文集
会议名称:第十五届全国信号和智能信息处理与应用学术会议
会议时间:2022年4月10日
会议地点:重庆
主办单位:中国高科技产业化研究会
语种:chi
分类号:
关键词:视频图像 标题生成 特征提取 音视频融合
在线出版日期:2022年5月27日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.37 MB
- 下载次数:
- 60
-
高速下载
|
|