文档名:基于RNN的中文二分结构句法分析
为了构建一个简单易扩展的中文句法分析器,依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个三万甸的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构.本文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,简称RNN-INT),与常用的循环神经网络(RNN,LSTM)模型和条件随机场(CRF)进行了对比实验,使用mx2交叉验证序贯t-检验来比较模型.实验结果表明,RNN-INT模型在窗口为1的词特征就可达到了最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF).最后,在测试集上,在人工分词下,RNN-INT在短语级别的F1值(块F1)达到71.25%,在句子级别的准确率达到了43%.
作者:谷波 王瑞波 李济洪 李国臣
作者单位:山西大学计算机与信息技术学院,山西太原,030006山西大学软件学院,山西太原,030006太原工业学院,山西太原,030008
母体文献:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)论文集
会议名称:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)
会议时间:2018年10月19日
会议地点:长沙
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:中文句法分析 二分结构 循环神经网络 序列标注模型
在线出版日期:2021年9月13日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.14 MB
- 下载次数:
- 60
-
高速下载
|
|