文档摘要:为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布.但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义.有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义.针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中.实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法.
Abstract:Toaccuratelyexplorethedevelopmentandchangesoftopicsinthefieldofscientificresearch,implicitsemanticfeaturesareoftenusedtoextractthescientifictopics.However,duetothelimitationofthetopicminingtechnologyitself,notallthetopicsareofequalsignificantormeaningful.Sometopicsmaycontainbackgroundtermsorlackcoherencebetweentopicterms,resultinginthelackofpracticalsignificance.Accordingtotheexistingresearch,thispaperproposesanewmulti-dimensionaltopicqualityevaluationalgorithmbasedonwordembedding,andusesthestatisticalfeaturesofthecorpustooptimizetheinsignificanttopicdistancescoringmethodbasedonthecharacteristicsofscientificdocuments,andfinallyintegratesthetwointoaunifiedtopicrankingframework.Experimentalresultsshowthatourmethodcaneffectivelyimprovetheoveralleffectivenessoftopicranking,andcanidentifyanddistinguishtheinsignificantandpoor-qualitytopicsfromthelegitimateones.Theoveralleffectoftopicrankingisbetterthanexistingmethods.
作者:何东彬 陶莎 任延昭 朱艳红 Author:HEDongbin TAOSha RENYanzhao ZHUYanhong
作者单位:石家庄学院未来信息技术学院,石家庄050035中国农业大学农业农村部农业信息化标准化重点实验室,北京100083北京工商大学计算机与信息工程学院,北京100048石家庄邮电职业技术学院计算机系,石家庄050021
刊名:北方工业大学学报
Journal:JournalofNorthChinaUniversityofTechnology
年,卷(期):2024, 36(1)
分类号:TP391.1
关键词:主题模型 潜在狄利克雷分配(LDA) 主题排序 科研主题 词嵌入
Keywords:topicmodel LatentDirichletAllocation(LDA) topicranking scientifictopic neuralembedding
机标分类号:TP391G254TN919.8
在线出版日期:2024年7月2日
基金项目:河北省重点研发计划项目,河北省农业科技成果转化项目,北京市科技计划课题项目,石家庄学院博士科研启动基金基于词嵌入的科研主题排序研究[
期刊论文] 北方工业大学学报--2024, 36(1)何东彬 陶莎 任延昭 朱艳红为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布.但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义.有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:主题模型,潜在狄利克雷分配(LDA),主题排序,科研主题,词嵌入,
- 文件大小:
- 1.32 MB
- 下载次数:
- 60
-
高速下载
|
|