文档名:基于多特征BiLSTMCRF的影评人名识别研究
近年来,电影行业蓬勃发展,相关的信息抽取和情报分析技术日益受到行业内的重视,其中对电影主创人物的分析尤为重要.而电影评论作为观影群体的主要反馈信息,具有重要的分析价值.如何从影评中自动抽取主创人名成为重要的基础工作.然而评论中观众对人物的称谓方式多样复杂,而且新电影的影评中往往存在大量人名未登录词,传统方法难以有效识别.针对影评的这些特点,本文提出一种基于多特征Bi-LSTM-CRF的影评人名识别方法.该方法通过利用外部人名语料和未标注影评提取字符级的特征;并采用Bi-LSTM-CRF模型进行人名字符序列标注.实验结果表明,该方法能够有效识别影评中的复杂称谓和人名未登录词,从而有效地抽取影评中的人名实体.
作者:禤镇宇 蒋盛益 张礼明 包睿
作者单位:广东外语外贸大学信息科学与技术学院,广东广州510006广东外语外贸大学信息科学与技术学院,广东广州510006;广东省网络空间内容安全工程技术研究中心,广东广州510006
母体文献:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)论文集
会议名称:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)
会议时间:2018年10月19日
会议地点:长沙
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:影评人名识别 字符级特征 字向量 长短期记忆网络
在线出版日期:2021年9月13日
基金项目:
相似文献
相关博文
- 文件大小:
- 896.13 KB
- 下载次数:
- 60
-
高速下载
|
|