文档名:基于LatticeLSTM的多粒度中文分词
中文分词是中文信息处理领域中的一项关键基础技术,而多粒度分词是中文分词领域较新的研究方向.针对多粒度中文分词任务,提出一种基于Lattice-LSTM的多粒度中文分词模型,在传统基于字的多粒度中文分词模型基础上,加入了多分词粒度的词典信息.与传统模型相比,本文所提出的模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准.实验表明,本文提出的方法在多粒度中文分词方向取得了目前最好的结果.
作者:张文静张惠蒙杨麟儿荀恩东
作者单位:北京语言大学语言资源高精尖创新中心,北京100083;北京语言大学信息科学学院,北京100083
母体文献:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)论文集
会议名称:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)
会议时间:2018年10月19日
会议地点:长沙
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:中文分词 多粒度信息 长短期记忆神经网络
在线出版日期:2021年9月13日
基金项目:
相似文献
相关博文
- 文件大小:
- 631.63 KB
- 下载次数:
- 60
-
高速下载
|
|