返回列表 发布新帖

天河2号上一种大规模生物医学文献挖掘技术

6 0
admin 发表于 2024-12-11 17:30 | 查看全部 阅读模式

文档名:天河2号上一种大规模生物医学文献挖掘技术
生物医药领域呈现出“大数据”的趋势,而海量的医药文献信息的快速、自动、高效获取成为医药和各领域专家的挑战.目前基于半自动化的专业数据库大量在大规模命名实体识别、计算效率与数据全面性方面有很大限制.针对该问题,本文提出了一种全新高效的可扩展性大规模文本挖掘方法,并基于一种高效文本挖掘工具PWTEES设计了针对疾病的命名实体识别组件DNorm.完成了生物医学文献库PubMed上全部2000多万篇MEDLINE生物医学文献以及PWTEES在天河-2上的大规模部署和挖掘,在天河上实现了数据库的动态部署,可以应对1000进程的并发存取,并探索了分布式可伸缩NoSQL数据库MongoDB的部署测试。将平时在普通服务器上需要3个月才能完成的计算处理缩短至1个小时,从而实现了对大规模生物医学文献文本的高效挖掘和快速知识获取.同时在天河2号上利用200进程对实际头颈癌相关的共约7万篇文献数据进行了并行挖掘分析,取得了80%以上的并行效率.而且随着生物医学文献文本数量的增加,并行效率始终保持在80%左右.
作者:彭绍亮 吴诚堃 廖湘科 卢宇彤 方林 汪雪飞 李文涛
作者单位:国防科学技术大学计算机学院,长沙410073深圳华大基因研究院,深圳518083
母体文献:2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议论文集
会议名称:2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议  
会议时间:2015年9月25日
会议地点:广东茂名
主办单位:中国计算机学会
语种:chi
分类号:TP3G25
关键词:生物医学文献  大规模文本挖掘  并行效率  数据库  动态部署
在线出版日期:2017年6月30日
基金项目:
相似文献
相关博文
2024-12-11 17:30 上传
文件大小:
593.54 KB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号
关灯 返回顶部
快速回复 返回顶部 返回列表