文档名:基于词向量的藏文语义相似词知识库构建
词向量在自然语言处理研究的各个领域发挥着重要作用.该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库.作者以哈尔滨工业大学的中文《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词.作者分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词;自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,说明词向量计算结果与人的语言直觉具有较高的一致性.因此本文所采用的方法有助于提高藏文语义相似词知识库构建效率.
作者:龙从军 刘汇丹 周毛克
作者单位:中国社会科学院民族学与人类学研究所,北京,100081;中国社会科学院大学,北京100081中国科学院软件研究所,北京100083中国社会科学院大学,北京100081
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:藏文 词向量 语义相似词 知识库
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.03 MB
- 下载次数:
- 60
-
高速下载
|
|