文档名:基于神经网络纠正器的领域分词方法
本文提出了一种基于神经网络的中文分词方法,以提高分词系统向新领域迁移的适应性和灵活性.本文方法采用了对现有分词器分词结果进行纠正的思路.这种基于纠正的两阶段方法与分词模型解耦,避免了对源领域语料和分词器构建方式的依赖.然而现有的基于纠正的方法依赖于特征工程,无法自动适应不同领域.本文利用神经网络对纠正器进行建模,在无需手工设计特征的情况下即可实现领域适应.实验表明,与当前方法相比,文本方法在领域文本上具有更好的分词性能和鲁棒性,尤其在未登录词召回率方面提升显著.
作者:吴佳林唐晋韬李莎莎王挺
作者单位:国防科技大学,湖南长沙410073
母体文献:第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会论文集
会议名称:第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会
会议时间:2017年10月13日
会议地点:南京
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:中文分词 领域适应 神经网络 纠正器
在线出版日期:2020年7月21日
基金项目:
相似文献
相关博文
- 文件大小:
- 951.65 KB
- 下载次数:
- 60
-
高速下载
|
|