文档名:天河2号上一种大规模生物医学文献挖掘技术
生物医药领域呈现出“大数据”的趋势,而海量的医药文献信息的快速、自动、高效获取成为医药和各领域专家的挑战.目前基于半自动化的专业数据库大量在大规模命名实体识别、计算效率与数据全面性方面有很大限制.针对该问题,本文提出了一种全新高效的可扩展性大规模文本挖掘方法,并基于一种高效文本挖掘工具PWTEES设计了针对疾病的命名实体识别组件DNorm.完成了生物医学文献库PubMed上全部2000多万篇MEDLINE生物医学文献以及PWTEES在天河-2上的大规模部署和挖掘,在天河上实现了数据库的动态部署,可以应对1000进程的并发存取,并探索了分布式可伸缩NoSQL数据库MongoDB的部署测试。将平时在普通服务器上需要3个月才能完成的计算处理缩短至1个小时,从而实现了对大规模生物医学文献文本的高效挖掘和快速知识获取.同时在天河2号上利用200进程对实际头颈癌相关的共约7万篇文献数据进行了并行挖掘分析,取得了80%以上的并行效率.而且随着生物医学文献文本数量的增加,并行效率始终保持在80%左右.
作者:彭绍亮 吴诚堃 廖湘科 卢宇彤 方林 汪雪飞 李文涛
作者单位:国防科学技术大学计算机学院,长沙410073深圳华大基因研究院,深圳518083
母体文献:2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议论文集
会议名称:2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议
会议时间:2015年9月25日
会议地点:广东茂名
主办单位:中国计算机学会
语种:chi
分类号:TP3G25
关键词:生物医学文献 大规模文本挖掘 并行效率 数据库 动态部署
在线出版日期:2017年6月30日
基金项目:
相似文献
相关博文
- 文件大小:
- 593.54 KB
- 下载次数:
- 60
-
高速下载
|
|