文档名:基于远程监督的人物属性抽取研究
属性抽取的主要目标是从非结构化文本中获取实体的属性值.为了从文本中抽取出人物属性,通常需要大量的标注数据,然而这些数据资源却十分稀少.为了解决这个问题,本文从百科类网页的表格数据出发,构建了人物属性表,然后采用远程监督的方法得到大规模、多类别的人物属性标注语料,从而免去了人工标注的繁琐流程.针对新构建的数据集,分别使用条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)构建了属性抽取的两个基线模型.实验结果表明BiLSTM-CRF取得比CRF更好的性能,其中BiLSTM-CRF的平均F1值为83.39%.
作者:马进杨一帆陈文亮
作者单位:苏州大学计算机科学与技术学院,江苏省苏州市215006
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:人物属性抽取 远程监督 条件随机场 双向长短期记忆
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 714.83 KB
- 下载次数:
- 60
-
高速下载
|
|