文档名:基于深层语言模型的古汉语知识表示及自动断句研究
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求.该文提出了一种基于深层语言模型(BERT)古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型.在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上.在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法提升幅度达到12%以上.实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码.在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果.
作者:胡韧奋 李绅 诸雨辰
作者单位:北京师范大学中文信息处理研究所,北京市100875深度好奇,北京市100083北京师范大学文学院,北京市100875
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:古汉语 知识表示 自动断句 深层语言模型 条件随机场 卷积神经网络
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 783.15 KB
- 下载次数:
- 60
-
高速下载
|
|