基于Spark和SimHash的大数据K近邻分类算法

admin · 发表于 2024-12-10 13:34

文档名：基于Spark和SimHash的大数据K近邻分类算法
在之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第一次从磁盘读入内存,生成一种抽象的内存对象RDD(ResilientDistributedDatasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.
作者：张素芳王婷婷赵春玲翟俊海
作者单位：中国气象局气象干部培训学院河北分院保定071000河北大学数学与信息科学学院保定071002
母体文献：第六届中国计算机学会大数据学术会议论文集
会议名称：第六届中国计算机学会大数据学术会议
会议时间：2018年10月11日
会议地点：西安
主办单位：中国计算机学会
语种：chi
分类号：TP3TN9
关键词：大数据处理 K-近邻算法哈希算法
在线出版日期：2020年11月30日
基金项目：
相似文献
相关博文

2024-12-10 13:34 上传

基于Spark和SimHash的大数据K近邻分类算法.pdf

文件大小:: 762.92 KB

下载次数:: 60

高速下载

基于Spark和SimHash的大数据K近邻分类算法

相关帖子

能源电力

化工

建筑工程

机械

电子信息

医药

科学