文档名:说话人感知的交叉注意力说话人提取网络
摘要:目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息.现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制.以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题.为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-awareCrossAttentionSpeakerExtractionNetwork,SACAN).SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入.进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力.实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.0133、1.0695dB,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性.
Abstract:Targetspeakerextractionaimstoextractthespeechofthespecificspeakerfrommixedaudio,whichusuallytreatstheenrolledaudioofthetargetspeakerasauxiliaryinformation.Existingapproachesmainlyhavethefollowinglimitations:theauxiliarynetworkforspeakerrecognitioncannotcapturethecriticalinformationfromenrolledaudio,andthesecondoneisthelackofaninteractivelearningmechanismbetweenmixedandenrolledaudioembedding.Theselimitationsleadtospeakerconfusionwhenthedifferencebetweentheenrolledandtargetaudioissignificant.Toaddressthis,aspeaker-awarecross-attentionspeakerextractionnetwork(SACAN)isproposed.First,SACANintroducesanattention-basedspeakeraggregationmoduleinthespeakerrecognitionauxiliarynetwork,whicheffectivelyaggregatescriticalinformationabouttargetspeakercharacteristics.Then,itusesmixedaudiotoenhancetargetspeakerembedding.Afterthat,topromotetheintegrationofspeakerembeddingandmixedaudioembedding,SACANbuildsaninteractivelearningmechanismthroughcross-attentionandenhancesthespeakerperceptionabilityofthemodel.TheexperimentalresultsshowthatSACANimprovesby0.0133and1.0695intermsofSTOIandSI-SDRiwhencomparedwiththebenchmarkmodel,validatingtheeffectivenessoftheproposedmoduleinspeakerconfusionassessmentandablationexperiments.
作者:李卓璋 许柏炎 蔡瑞初 郝志峰 Author:LiZhuo-zhang XuBo-yan CaiRui-chu HaoZhi-feng
作者单位:广东工业大学计算机学院,广东广州510006广东工业大学计算机学院,广东广州510006;汕头大学理学院,广东汕头515063
刊名:广东工业大学学报
Journal:JournalofGuangdongUniversityofTechnology
年,卷(期):2024, 41(3)
分类号:TP391.2
关键词:语音分离 目标说话人提取 说话人嵌入 交叉注意力 多任务学习
Keywords:speechseparation targetspeakerextraction speakerembedding crossattention multi-tasklearning
机标分类号:TN912.34TP391TP18
在线出版日期:2024年6月19日
基金项目:科技创新新一代人工智能重大项目,国家优秀青年科学基金资助项目,国家自然科学基金,国家自然科学基金,国家自然科学基金说话人感知的交叉注意力说话人提取网络[
期刊论文] 广东工业大学学报--2024, 41(3)李卓璋 许柏炎 蔡瑞初 郝志峰目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息.现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
说话人感知的交叉注意力说话人提取网络 Speaker-Aware Cross Attention Speaker Extraction Network
说话人感知的交叉注意力说话人提取网络.pdf
- 文件大小:
- 1012.17 KB
- 下载次数:
- 60
-
高速下载
|
|