文档摘要:通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集.
作者:张亚楠 谭跃生 Author:ZHANGYa-nan TANYue-sheng
作者单位:内蒙古科技大学信息工程学院,内蒙古包头,014010内蒙古科技大学工程训练中心,内蒙古包头,014010
刊名:内蒙古科技大学学报
Journal:JournalofInnerMongoliaUniversityofScienceandTechnology
年,卷(期):2013, 32(3)
分类号:TP391.1
关键词:文本聚类 遮盖算法 Hadoop MapReduce
机标分类号:TP1TP3
在线出版日期:2013年11月18日
基金项目:内蒙古自然科学基金资助项目,内蒙古教育厅科研资助项目基于MapReduce的并行遮盖文本聚类算法[
期刊论文] 内蒙古科技大学学报--2013, 32(3)张亚楠 谭跃生通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:
- 文件大小:
- 779.16 KB
- 下载次数:
- 60
-
高速下载
|
|