文档名:结合字形特征与迭代学习的金融领域命名实体识别
该文主要研究针对中文金融文本领域的命名实体识别.从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型.该模型完全端到端且不涉及任何特征工程,它将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果不断进行改进.由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,对此,本文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31210个文本句,包含4类实体.在语料库HITSZ-Finance进行一系列实验,实验结果均表明模型的有效性.
作者:刘宇瀚刘常健骆旺达陈奕吉忠晟应能涛徐睿峰
作者单位:哈尔滨工业大学(深圳)计算机科学与技术学院,广东深圳518055
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:中文金融文本 命名实体识别 字形特征 迭代学习
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 870.87 KB
- 下载次数:
- 60
-
高速下载
|
|