文档名:短文本聚类簇描述及标签生成方法
从产生大量短文本的微博、微信、用户评论、交互式问答系统等社会化媒体出发,在分析短文本特点的基础上,对短文本聚类得到的类簇描述方法进行了研究.首先,基于网页排序的PageRank算法思想提出短文本重要性排序计算方法;其次,通过选取最具代表性的短文本完成对类簇的描述,满足了用户快速了解类簇内容的需求;再其次,在选取出的几个短文本中进行分词和词频统计,提出按语法规则合并高频词的类簇标签生成方法;最后,以某幼儿教育公司自动问答系统为例,对所提出的类簇标签生成方法进行了验证和分析.
作者:王宇伍力慧
作者单位:大连理工大学管理与经济学部,大连116024
母体文献:信息系统协会中国分会第六届学术年会论文集
会议名称:信息系统协会中国分会第六届学术年会
会议时间:2015年10月24日
会议地点:济南
主办单位:国际信息系统协会中国分会
语种:chi
分类号:TP1TS9
关键词:文本处理 聚类簇描述 标签生成方法 重要性排序 PageRank算法
在线出版日期:2018年8月28日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.25 MB
- 下载次数:
- 60
-
高速下载
|
|