文档摘要:机器翻译中的分词部分对于语料预处理过程有着至关重要的作用.而在蒙文分词中传统方法对于特征提取、构型特点的计算分析能力有限,基于Lucene的蒙文分词技术结合垂直搜索引擎技术,面向专业领域构建个性化专业词典,采用逐字二分的分词词典机制,并在此基础上采用正向最大匹配分词算法来改进Lucene的蒙文分词模块.文章提出了根据领域知识、领域概念、领域术语,在分词预处理前降低搜索噪音、信息过载、信息冗余等现象,从而改进了词典机制.文章的另一个工作是在现有Lucene蒙文分词技术上结合垂直搜索引擎技术提高Lucene在蒙文应用程序开发上的应用广泛度.基于开放的蒙汉语料的实验结果表明,改进的Lucene分词技术能有效地改善对齐效果,相比原始的分词模型,译文质量有了显著的提高.
作者:卢凤Author:LUFeng
作者单位:内蒙古科技大学工程训练中心,内蒙古包头,014010
刊名:内蒙古科技大学学报
Journal:JournalofInnerMongoliaUniversityofScienceandTechnology
年,卷(期):2018, 37(3)
分类号:TP391
关键词:机器翻译 分词 Lucene 垂直搜索引擎
机标分类号:
在线出版日期:2018年11月26日
基金项目:内蒙古自然科学基金资助项目(2017MS,内蒙古科技大学创新基金资助项目基于垂直搜索引擎的Lucene蒙文分词技术研究[
期刊论文] 内蒙古科技大学学报--2018, 37(3)卢凤机器翻译中的分词部分对于语料预处理过程有着至关重要的作用.而在蒙文分词中传统方法对于特征提取、构型特点的计算分析能力有限,基于Lucene的蒙文分词技术结合垂直搜索引擎技术,面向专业领域构建个性化专业词典,采用逐...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:
- 文件大小:
- 1.12 MB
- 下载次数:
- 60
-
高速下载
|
|