文档摘要:近年来,材料基因组计划(Materialgenomeinitiative,MGI)已经成为全球热点.随着材料科学的不断发展,材料文献中包含的海量信息成为研究人员关注的焦点,如何获取大量有效的材料数据是现阶段的主要挑战.本文采用自然语言处理(Naturallanguageprocessing,NLP)技术从铝硅合金材料文献中获取数据.命名实体识别(Namedentityrecognition,NER)和关系抽取(Relationextraction,RE)是NLP的两个子任务,可以高效地从文本中提取单词信息及其之间的关系.铝硅合金文献中存在多种命名实体及多种关系,本文从材料科学文献中选择11种实体类型和13种关系类型,手动标注构建了铝硅合金实体关系数据集,将命名实体识别与关系抽取进行联合学习,即对实体识别和关系抽取进行统一建模.此外,针对基础模型的编码层存在捕捉文本语义信息不充分问题,通过改进模型的编码层,将基础模型的BiLSTM层与空洞卷积模型结合,组成了新的编码器,避免了BiLSTM处理文本信息丢失的问题,最终使铝硅合金实体关系联合抽取模型能够更好地捕捉文本中句子的语义单元信息.
Abstract:Inrecentyears,materialgenomeinitiative(MGI)hasbecomeaglobalhotspot.Withthecontinuousdevelopmentofmaterialsscience,themassiveinformationcontainedinmaterialsliteraturehasbecomethefocusofresearchers'attention,andhowtoobtainalargeamountofeffectivematerialsdataisanewchallengeatthisstage.Inthispaper,Naturallanguageprocessing(NLP)technologyisusedtoobtaindatafromAl-Sialloymaterialliterature.Namedentityrecognition(NER)andrelationextraction(RE)aretwosub-tasksofNLP,whichcanefficientlyextractwordinformationandtheirrelationshipsfromtext.TherearemultiplenamedentitiesandmultiplerelationshipsintheAl-Sialloyliterature.Inthispaper,11entitytypesand13relationshiptypesareselectedfromthematerialsscienceliterature,andtheAl-Sialloyentity-relationshipdatasetisconstructedbymanuallyannotating,andthenamedentityrecognitionandrelationshipextractionarejointlylearned,i.e.,theentityrecognitionandtherelationshipextractionaremodeleduniformly.Inaddition,thecodinglayerofthebasemodelhastheproblemofcapturingtextsemanticinformationinsufficiently,byimprovingthecodinglayerofthemodel,theBiLSTMlayerofthebasemodeliscombinedwiththenullconvolutionmodeltoformanewencoder,whichavoidstheproblemofthelossoftextinformationintheBiLSTMprocessing,andultimately,itcanmaketheAl-Sialloyentity-relationshipjointextractionmodelcanbettercapturethesemanticunitofthesentenceinthetextinformation.
作者:李武亮 邱洪顺 周治邦 罗光辉 郜洪波 王鸿湫 Author:LIWuliang QIUHongshun ZHOUZhibang LUOGuanghui GAOHongbo WANGHongqiu
作者单位:云南烟叶复烤有限责任公司大理复烤厂,云南大理672100云南烟叶复烤有限责任公司宣威复烤厂,云南曲靖655400
刊名:材料导报 ISTICEIPKU
Journal:MaterialsReports
年,卷(期):2024, 38(z1)
分类号:TP391
关键词:材料基因组 铝硅合金文献 实体关系联合抽取 数据集 空洞卷积神经网络
Keywords:materialgenome Al-Sialloyliterature jointextractionofentityrelationships dataset dilatedconvolutionalneuralnetwork
机标分类号:TP391.41TP183TN911.73
在线出版日期:2024年7月4日
基金项目:基于空洞卷积神经网络的铝硅合金实体关系联合抽取模型[
期刊论文] 材料导报--2024, 38(z1)李武亮 邱洪顺 周治邦 罗光辉 郜洪波 王鸿湫近年来,材料基因组计划(Materialgenomeinitiative,MGI)已经成为全球热点.随着材料科学的不断发展,材料文献中包含的海量信息成为研究人员关注的焦点,如何获取大量有效的材料数据是现阶段的主要挑战.本文采用自然语言...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:材料基因组,铝硅合金文献,实体关系联合抽取,数据集,空洞卷积神经网络,
- 文件大小:
- 27.21 MB
- 下载次数:
- 60
-
高速下载
|
|