天河2号上一种大规模生物医学文献挖掘技术

admin · 发表于 2024-12-11 17:30

文档名：天河2号上一种大规模生物医学文献挖掘技术
生物医药领域呈现出“大数据”的趋势,而海量的医药文献信息的快速、自动、高效获取成为医药和各领域专家的挑战.目前基于半自动化的专业数据库大量在大规模命名实体识别、计算效率与数据全面性方面有很大限制.针对该问题,本文提出了一种全新高效的可扩展性大规模文本挖掘方法,并基于一种高效文本挖掘工具PWTEES设计了针对疾病的命名实体识别组件DNorm.完成了生物医学文献库PubMed上全部2000多万篇MEDLINE生物医学文献以及PWTEES在天河-2上的大规模部署和挖掘,在天河上实现了数据库的动态部署，可以应对1000进程的并发存取，并探索了分布式可伸缩NoSQL数据库MongoDB的部署测试。将平时在普通服务器上需要3个月才能完成的计算处理缩短至1个小时,从而实现了对大规模生物医学文献文本的高效挖掘和快速知识获取.同时在天河2号上利用200进程对实际头颈癌相关的共约7万篇文献数据进行了并行挖掘分析,取得了80％以上的并行效率.而且随着生物医学文献文本数量的增加,并行效率始终保持在80％左右.
作者：彭绍亮吴诚堃廖湘科卢宇彤方林汪雪飞李文涛
作者单位：国防科学技术大学计算机学院,长沙410073深圳华大基因研究院,深圳518083
母体文献：2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议论文集
会议名称：2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议
会议时间：2015年9月25日
会议地点：广东茂名
主办单位：中国计算机学会
语种：chi
分类号：TP3G25
关键词：生物医学文献大规模文本挖掘并行效率数据库动态部署
在线出版日期：2017年6月30日
基金项目：
相似文献
相关博文

2024-12-11 17:30 上传

天河2号上一种大规模生物医学文献挖掘技术.pdf

文件大小:: 593.54 KB

下载次数:: 60

高速下载

天河2号上一种大规模生物医学文献挖掘技术

相关帖子

能源电力

化工

建筑工程

机械

电子信息

医药

科学