文档名:基于形态学信息的中文词嵌入方法一种双通道视角
词嵌入是自然语言处理领域的一个基础而又十分重要的课题.对于具有象形表意特性的汉语来说,如何捕捉隐藏于文字形态中的语义信息,同时使得方法具有良好的可解释性,成为一个亟待解决的问题.在该文中,详细阐释了汉语的形态学信息在传达语义和增强汉语词嵌入上的重要性.然后,提出了一个新颖的双通道词嵌入模型来实现汉字笔画序列信息和字形空间信息的联合学习,进而丰富汉语词的表示.通过两个经典词嵌入测试任务的评估,我们的模型在形态学突出的词语相似度和词义类比任务中明显优于其他的模型,同时展现出了很好的可解释性.
作者:陶汉卿 童世炜 徐童 刘淇 陈恩红
作者单位:中国科学技术大学计算机科学与技术学院,安徽省合肥市230026中国科学技术大学计算机科学与技术学院,安徽省合肥市230026;中国科学技术大学大数据学院,安徽省合肥市230026
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:汉语 词嵌入 笔画序列 字形空间
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 649.23 KB
- 下载次数:
- 60
-
高速下载
|
|