文档名:基于深度学习的中文临床实验筛选标准的分类
摘要:针对大多数临床实验筛选标准的分类研究都集中在英文资格标准上,研究适合中文资格标准的分类模型,利用第五届中国健康信息处理会议开发的中文临床实验短文本数据集,结合神经网络和预训练语言模型对分类任务进行构建和微调,比较分析Word2vec-BiLSTM模型、CNN模型、RNN模型、预训练语言模型在此应用上的效果差异,并通过实验得到预训练模型ERNIE的分类效果优于其他模型.针对数据不平衡这一特征,对数量较少的类别语料进行数据增强后可有效提升模型的性能和效果,结果显示ERNIE模型的宏观平均F1值和微观平均F1值分别可达到0.8281和0.8537.
Abstract:ClassificationresearchformostclinicaltrialscreeningcriteriafocusesonEnglisheligibilitycriteria.Thispa-percomparesthecharacteristicofclassificationmodelssuitableforChineseeligibilitycriteria,usingtheChineseclinicaltrialshorttextdatasetdevelopedbythe5thChinaHealthInformationProcessingConference,combinedwithneuralnet-worksandpre-trainedlanguagemodelstoconstructclassificationtasksandfine-tuning,analyzedthedifferencesintheeffectsoftheWord2vec-BiLSTMmodel,CNNmodel,RNNmodel,andpre-trainedlanguagemodelinthisapplication,andobtainedthroughexperimentsthattheclassificationeffectofthepre-trainedmodelERNIEperformsbetter.Inviewofthecharacteristicofdataimbalance,theperformanceandeffectofthemodelcanbeeffectivelyimprovedafterdataen-hancementofasmallnumberofcategorycorpora.Theresultsshowthatthemacro-averageF1valueandmicro-averageF1valueoftheERNIEmodelcanreach0.8281and0.8537,respectively.
作者:刘子琦 胡建成 牟谷芳Author:LIUZiqi HUJiancheng MOUGufang
作者单位:成都信息工程大学应用数学学院,四川成都610255
刊名:成都信息工程大学学报
Journal:JournalofChengduUniversityOfInformationTechnology
年,卷(期):2024, 39(2)
分类号:TP391.1
关键词:临床实验 医学短文本分类 深度学习 预训练模型
Keywords:clinicaltrials medicalshorttextclassification deeplearning pre-trainingmodel
机标分类号:TP391.41TP181TN912.34
在线出版日期:2024年5月23日
基金项目:基于深度学习的中文临床实验筛选标准的分类[
期刊论文] 成都信息工程大学学报--2024, 39(2)刘子琦 胡建成 牟谷芳针对大多数临床实验筛选标准的分类研究都集中在英文资格标准上,研究适合中文资格标准的分类模型,利用第五届中国健康信息处理会议开发的中文临床实验短文本数据集,结合神经网络和预训练语言模型对分类任务进行构建和微...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于深度学习的中文临床实验筛选标准的分类 Classification of Screening Criteria for Chinese Clinical Trials based on Deep Learning
基于深度学习的中文临床实验筛选标准的分类.pdf
- 文件大小:
- 1.27 MB
- 下载次数:
- 60
-
高速下载
|
|