文档摘要:为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法.该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数.首先,提取语音信号中的特征信息,以此获得藏语语音信号的基音轨迹,即音频特征;其次,建立了唇部时空分析模型,分析唇部轮廓在发音过程中变化趋势,采用主成分分析法提取唇部轮廓特征;最后,通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联,在音频匹配的基础上合成藏语驱动视觉语音.实验结果表明,该方法具有较高的唇部轮廓检测精度,视觉语音合成效果较好.
Abstract:Inordertosolvetheproblemsoflowlipcontourdetectionaccuracyandpoorvisualspeechsynthesiseffect,aTibetan-drivenvisualspeechsynthesisalgorithmbasedonaudiomatchingisproposed.Thisalgorithmextractsshort-termenergyandshort-termzero-crossingratefromTibetan-language-drivenvisualspeechsignal,establishesshort-termautocorrelationfunctionofspeechsignal,andextractsfeatureinformationinspeechsignal,soastoobtainthepitchtrackofTibetanspeechsignal.Secondly,thetemporalandspatialanalysismodeloflipisestablishedtoanalyzethechangingtrendoflipcontourinthepronunciationprocess,andthefeatureoflipcontourisextractedbyprincipalcomponentanalysis.Finally,thecorrelationbetweenaudiofeaturesandlipcontourfeaturesisobtainedthroughtheinput-outputhiddenMarkovmodel,andTibetan-drivenvisualspeechissynthesizedonthebasisofaudiomatching.Experimentalresultsshowthattheproposedmethodhashighlipcontourdetectionaccuracyandgoodvisualspeechsynthesiseffect.
作者:韩西 梁凯 岳宇Author:HANXi LIANGKai YUEYu
作者单位:甘孜州科技信息研究所,四川康定626000
刊名:吉林大学学报(信息科学版) ISTIC
Journal:JournalofJilinUniversity(InformationScienceEdition)
年,卷(期):2024, 42(3)
分类号:TP391.42
关键词:音频匹配 短时自相关函数 时空分析模型 主成分分析法 视觉语音合成
Keywords:audiomatching shorttimeautocorrelationfunction spatiotemporalanalysismodel principalcomponentanalysismethod visualspeechsynthesis
机标分类号:TP391TN912.3TP242
在线出版日期:2024年7月19日
基金项目:四川省科技计划基金资助项目基于音频匹配的藏语驱动视觉语音合成算法研究[
期刊论文] 吉林大学学报(信息科学版)--2024, 42(3)韩西 梁凯 岳宇为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法.该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数.首先,提取语音信号中的...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:音频匹配,短时自相关函数,时空分析模型,主成分分析法,视觉语音合成,
|
|