文档名:基于枢轴语言的图像描述生成研究
当前图像描述生成的研究主要仅限于单语言(如英文),这得益于大规模的已人工标注的图像及其英文描述语料.该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究.具体地,借助于神经机器翻译技术,该文提出并比较了两种图像中文描述生成的方法:串行法,该方法首先将图像生成英文描述,然后由英文描述翻译成中文描述;构建伪训练语料法,该方法首先将训练集中图像的英文描述翻译为中文描述,得到图像-中文描述的伪标注语料,然后训练一个图像中文描述生成模型.特别地,对于第二种方法,该文还比较了基于词和基于字的中文描述生成模型.实验结果表明,采用构建伪训练语料法优于串行法,同时基于字的中文描述生成模型也要优于基于词的模型,BLEU_4值达到0.341.
作者:张凯李军辉周国栋
作者单位:苏州大学计算机科学与技术学院,江苏省苏州市215006
母体文献:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)论文集
会议名称:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)
会议时间:2018年10月19日
会议地点:长沙
主办单位:中国中文信息学会
语种:chi
分类号:TP3TH1
关键词:图像中文描述 自动生成 枢轴语言 机器翻译 神经网络
在线出版日期:2021年9月13日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.1 MB
- 下载次数:
- 60
-
高速下载
|
|