返回列表 发布新帖

基于Spark和SimHash的大数据K近邻分类算法

9 0
admin 发表于 2024-12-10 13:34 | 查看全部 阅读模式

文档名:基于Spark和SimHash的大数据K近邻分类算法
在之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第一次从磁盘读入内存,生成一种抽象的内存对象RDD(ResilientDistributedDatasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.
作者:张素芳 王婷婷 赵春玲 翟俊海
作者单位:中国气象局气象干部培训学院河北分院保定071000河北大学数学与信息科学学院保定071002
母体文献:第六届中国计算机学会大数据学术会议论文集
会议名称:第六届中国计算机学会大数据学术会议  
会议时间:2018年10月11日
会议地点:西安
主办单位:中国计算机学会
语种:chi
分类号:TP3TN9
关键词:大数据处理  K-近邻算法  哈希算法
在线出版日期:2020年11月30日
基金项目:
相似文献
相关博文
2024-12-10 13:34 上传
文件大小:
762.92 KB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号
关灯 返回顶部
快速回复 返回顶部 返回列表