文档摘要:采用一种基于分级掩码策略的文本纠正方法来提高语音识别后的文本质量.以风电相关的语音为数据集,将其通过公开的语音识别SDK转为文本数据,利用BERT中的MLM机制实现文本纠正,并采用分级掩码策略,针对不同的内容采用不同的掩码方法,改进后的模型称为HM-BERT.实验证明:HM-BERT在提升纠正效果的同时还加强了纠正模型的鲁棒性,该方法对其他领域的文本纠正也提供了解决思路.
Abstract:Thepaperadoptsatextcorrectionmethodbasedonhierarchicalmaskstrategytoimprovetextrecognitionqualityafterspeechrecognition.ThedatasetrelatedtowindpowerspeechisconvertedtotextdatawiththepublicspeechrecognitionSDK.Thetextiscor-rectedbyusingtheMLMmechanisminBERTandadoptingcorrespondinghierarchicalmaskstrategyaccordingtodifferenttexts,whichiscalledHM-BERT.TheexperimentsshowthatHM-BERTnotonlyimprovesthecorrectioneffectbutalsoenhancestherobustnessofthecorrectionmodel.Themethodalsoprovidessomesolutionsfortextrecognitioninotherfields.
作者:高永兵 郑伟业 李春灿 姜春光 Author:GAOYongbing ZHENGWeiye LIChuncan JIANGChunguang
作者单位:内蒙古科技大学信息工程学院,内蒙古包头014010中冶西北工程技术有限公司市政设计研究院,内蒙古包头014010
刊名:内蒙古科技大学学报
Journal:JournalofInnerMongoliaUniversityofScienceandTechnology
年,卷(期):2023, 42(4)
分类号:TP391
关键词:BERT MLM 分级掩码 语音文本纠正
Keywords:BERT MLM hierarchicalmask speechtextcorrection
机标分类号:TN912.34TP309TP273.4
在线出版日期:2024年3月13日
基金项目:内蒙古自治区自然科学基金资助项目HM-BERT:一种采用分级掩码的风电语音文本纠正方法[
期刊论文] 内蒙古科技大学学报--2023, 42(4)高永兵 郑伟业 李春灿 姜春光采用一种基于分级掩码策略的文本纠正方法来提高语音识别后的文本质量.以风电相关的语音为数据集,将其通过公开的语音识别SDK转为文本数据,利用BERT中的MLM机制实现文本纠正,并采用分级掩码策略,针对不同的内容采用不同...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:BERT,MLM,分级掩码,语音文本纠正,
- 文件大小:
- 3.38 MB
- 下载次数:
- 60
-
高速下载
|
|