文档名:基于关键词聚类的新闻文本相似度计算
摘要:针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法.首先对文本数据进行预处理,挖掘出文本中的关键信息.使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关键词,基于聚类的方法光滑噪声数据.聚类形成簇后,在簇间词语相似度计算上,使用word2vec融合TF-IDF词语加权的计算方法,同时关注词语间的语义信息和词语频率.最后,基于各簇的相似度计算两篇文本的相似度.实验表明,所提新闻文本相似度计算方法在计算效果上优于传统计算方法.
Abstract:Aimingattheproblemsoflongnewstext,toomuchredundantinformation,anddifficultyinaccuratelyandef-ficientlycalculatingtextsimilarity,anewstextsimilaritycalculationmethodbasedonkeywordclusteringisproposed.First,thetextdataispreprocessedtoextractthekeyinformationinthetext.TheweightedsamplingmethodweightedbyTF-IDFvalueswasusedtoextractkeywordsinthetextdataset,andtheclustering-basedmethodwasusedtosmoothnoisedata.Aftergettingclustersfromclustering,word2vecisusedtocalculatethewordsimilaritybetweenclusters,andtheTF-IDFwordweightingcalculationmethodisused,andthesemanticinformationandwordfrequencybetweenwordsareconsidered.Finally,thesimilarityofthetwotextsiscalculatedbasedonthesimilarityofeachcluster.Experimentsshowthattheproposednewstextsimilaritycalculationmethodperformsbetterthanthetraditionalcalculationmethod.
作者:祝婷 胡建成Author:ZHUTing HUJiancheng
作者单位:成都信息工程大学应用数学学院,四川成都610225
刊名:成都信息工程大学学报
Journal:JournalofChengduUniversityOfInformationTechnology
年,卷(期):2024, 39(2)
分类号:TP391.1
关键词:新闻文本相似度 word2vec TF-IDF 关键词聚类
Keywords:newstextsimilarity word2vec TF-IDF keywordclustering
机标分类号:TP391.1TP181G254.23
在线出版日期:2024年5月23日
基金项目:基于关键词聚类的新闻文本相似度计算[
期刊论文] 成都信息工程大学学报--2024, 39(2)祝婷 胡建成针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法.首先对文本数据进行预处理,挖掘出文本中的关键信息.使用以TF-IDF值为权重的加权采样方法抽取文本数...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于关键词聚类的新闻文本相似度计算 News Text Similarity Calculation based on Keyword Clustering
基于关键词聚类的新闻文本相似度计算.pdf
- 文件大小:
- 878.65 KB
- 下载次数:
- 60
-
高速下载
|
|