返回列表 发布新帖

说话人感知的交叉注意力说话人提取网络

6 0
admin 发表于 2024-12-14 02:52 | 查看全部 阅读模式

文档名:说话人感知的交叉注意力说话人提取网络
摘要:目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息.现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制.以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题.为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-awareCrossAttentionSpeakerExtractionNetwork,SACAN).SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入.进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力.实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.0133、1.0695dB,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性.

Abstract:Targetspeakerextractionaimstoextractthespeechofthespecificspeakerfrommixedaudio,whichusuallytreatstheenrolledaudioofthetargetspeakerasauxiliaryinformation.Existingapproachesmainlyhavethefollowinglimitations:theauxiliarynetworkforspeakerrecognitioncannotcapturethecriticalinformationfromenrolledaudio,andthesecondoneisthelackofaninteractivelearningmechanismbetweenmixedandenrolledaudioembedding.Theselimitationsleadtospeakerconfusionwhenthedifferencebetweentheenrolledandtargetaudioissignificant.Toaddressthis,aspeaker-awarecross-attentionspeakerextractionnetwork(SACAN)isproposed.First,SACANintroducesanattention-basedspeakeraggregationmoduleinthespeakerrecognitionauxiliarynetwork,whicheffectivelyaggregatescriticalinformationabouttargetspeakercharacteristics.Then,itusesmixedaudiotoenhancetargetspeakerembedding.Afterthat,topromotetheintegrationofspeakerembeddingandmixedaudioembedding,SACANbuildsaninteractivelearningmechanismthroughcross-attentionandenhancesthespeakerperceptionabilityofthemodel.TheexperimentalresultsshowthatSACANimprovesby0.0133and1.0695intermsofSTOIandSI-SDRiwhencomparedwiththebenchmarkmodel,validatingtheeffectivenessoftheproposedmoduleinspeakerconfusionassessmentandablationexperiments.

作者:李卓璋   许柏炎   蔡瑞初   郝志峰 Author:LiZhuo-zhang   XuBo-yan   CaiRui-chu   HaoZhi-feng
作者单位:广东工业大学计算机学院,广东广州510006广东工业大学计算机学院,广东广州510006;汕头大学理学院,广东汕头515063
刊名:广东工业大学学报
Journal:JournalofGuangdongUniversityofTechnology
年,卷(期):2024, 41(3)
分类号:TP391.2
关键词:语音分离  目标说话人提取  说话人嵌入  交叉注意力  多任务学习  
Keywords:speechseparation  targetspeakerextraction  speakerembedding  crossattention  multi-tasklearning  
机标分类号:TN912.34TP391TP18
在线出版日期:2024年6月19日
基金项目:科技创新新一代人工智能重大项目,国家优秀青年科学基金资助项目,国家自然科学基金,国家自然科学基金,国家自然科学基金说话人感知的交叉注意力说话人提取网络[
期刊论文]  广东工业大学学报--2024, 41(3)李卓璋  许柏炎  蔡瑞初  郝志峰目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息.现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        说话人感知的交叉注意力说话人提取网络  Speaker-Aware Cross Attention Speaker Extraction Network

说话人感知的交叉注意力说话人提取网络.pdf
2024-12-14 02:52 上传
文件大小:
1012.17 KB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号
关灯 返回顶部
快速回复 返回顶部 返回列表