文档名:基于双向LSTM和两阶段方法的触发词识别
生物事件抽取是生物文本挖掘领域的一个重要分支,而触发词识别作为事件抽取的重要子过程,已经吸引了众多的关注.现有的触发词识别方法多为浅层的一阶段方法,训练代价较大,且需要丰富的领域知识抽取大量特征,人工成本较高.因此,本文提出了一种基于两阶段和双向LSTM神经网络的触发词识别方法.首先,将触发词识别分为识别和分类两个阶段,有效的缓解了训练过程中存在的类不平衡问题.其次,在两个阶段中均采用目前性能较好的双向LSTM神经网络来完成二分类任务和多分类任务,避免了浅层机器学习方法抽取人工特征时的代价.此外,利用PubMed数据库下载大规模语料训练带有依存关系的词向量,获得了更加丰富的语义信息,从而有效的提高了触发词的识别性能.本文方法在生物事件抽取通用语料MLEE上已获得目前最好抽取性能,F值为78.46%.
作者:何馨宇李丽双
作者单位:大连理工大学计算机科学与技术学院,辽宁大连116023
母体文献:第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会论文集
会议名称:第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会
会议时间:2017年10月13日
会议地点:南京
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:触发词识别 两阶段法 双向LSTM神经网络
在线出版日期:2020年7月21日
基金项目:
相似文献
相关博文
- 文件大小:
- 602.08 KB
- 下载次数:
- 60
-
高速下载
|
|