文档名:中文句法异构蕴含语块标注和边界识别研究
文本蕴含是自然语言处理的难点,其形式类型复杂、知识难以概括.早期多利用词汇蕴含和逻辑推理知识识别蕴含,但仅对特定类型的蕴含有效.近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段.本文研究文本蕴含成因形式,归纳为词汇、句法异构、常识三类,并以句法异构蕴含为研究对象.针对上述两个问题,提出句法异构蕴含语块的概念,定义其边界识别任务.本文制定句法异构蕴含语块标注规范,建立标注数据集.在此基础上,分别建立基于规则和基于深度学习的模型,探索句法异构蕴含语块的自动识别方法.实验结果表明,本文提出的深度学习模型能有效发现蕴含片段,为下一步研究提供了可靠的基线方法.
作者:金天华 姜珊 赵美倩 刘璐 于东
作者单位:北京语言大学信息科学学院,北京100083北京语言大学信息科学学院,北京100083;北京语言大学语言资源高精尖创新中心,北京100083
母体文献:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)论文集
会议名称:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)
会议时间:2018年10月19日
会议地点:长沙
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:中文文本 句法异构 语块标注 边界识别
在线出版日期:2021年9月13日
基金项目:
相似文献
相关博文
- 文件大小:
- 894.85 KB
- 下载次数:
- 60
-
高速下载
|
|