首页  >  手机促销  > >  oppo

OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023

2023-06-08 09:06:07 手机促销 作者:王富贵

智能推荐中...

文章主要介绍的是OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023相关内容!

***,语音技术领域的国际会议Interspeech公布了今年的论文评审结果。 OPPO小布智能中心智能交互部语音技术组5篇论文被收录在会议中。本次接收论文的研究方向涵盖语音识别、模型压缩、目标说话人提取、语音认证、异常声音检测等。

Interspeech是国际语音通信协会举办的年会,也是全球规模最大、最全面的专注于语音通信领域的学术盛会。 Interspeech大会已成为该领域各界专家、研究人员、学生等讨论、交流和分享前沿语音技术、认知和创新的聚集地。本次Interspeech会议将于2023年8月20日-8月24日在爱尔兰都柏林举行。

论文题目:用于语音识别的多通道多扬声器变压器

论文作者:郭一帆、田耀、索宏斌、万玉龙

论文单位:OPPO

核心内容:随着在线会议和车载语音助手的发展,远场多说话人语音识别成为热门研究课题。最近,研究人员提出了一种多通道的Transformer结构。这项工作展示了Transformer 架构模拟远场声学环境的能力。但是,当有多个说话人同时说话时,说话人之间的相互干扰会使MCT无法直接从多人混合音频中为每个说话人编码对应的高维声学特征。基于此,我们在本文中提出了一种多通道多说话人Transformer语音识别架构。在SMS-WSJ开源数据集上的实验表明,与基于神经网络波束形成器、MCT、具有变换平均连接的双路径RNN和多通道深度聚类方法相比,所提出的结构具有更高的识别错误率。相对跌幅分别为9.2%、14.3%、24.9% 和52.2%。

OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023

论文题目:语音表示模型的任务不可知结构化修剪

论文作者:王浩宇、王思远、张伟强、万玉龙

论文单位:清华大学、OPPO

核心内容:近年来,基于无监督预训练技术的语音表示模型为许多语音任务带来了显着进步,但另一方面,这些模型通常包含大量参数,对计算产生负面影响硬件平台的电源和内存空间。非常严格。为了将大型模型部署到生产环境,模型压缩技术至关重要。结构化剪枝无需特殊硬件即可实现参数压缩和推理加速。是一种硬件友好的模型压缩方式,但也会带来较大的性能损失。为了弥补性能损失,我们提出了一种细粒度的attention head pruning方法;此外,我们在L0正则化剪枝方法中引入梯度估计,使模型参数分布更加紧凑,从而实现进一步的加速。我们在SUPERB 排行榜上的实验表明,我们的压缩模型平均表现优于Wav2vec2.0 Base 模型,同时与前者相比参数数量减少了30%,推理时间减少了50%。

OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023

论文题目:SEF-Net: Speaker Embedding Free Target Speaker Extraction Network

论文作者:曾邦、索宏斌、李明

论文单位:武汉大学、昆山杜克大学、OPPO

核心内容:主流的目标说话人分离方法使用以目标人的声纹嵌入作为参考信息。获取声纹嵌入的方式主要有两种:一种是从使用预训练的说话人识别模型中提取声纹,另一种是利用多任务学习联合训练说话人识别模型提取声纹.然而,方案的两个声纹提取模块针对说话人识别任务进行了优化,提取的声纹嵌入对于目标说话人分离任务可能不是最优的。本文提出了一种不依赖声纹嵌入的新型时间目标说话人分离网络SEF-Net。 SEF-Net in the Transformer decoder使用跨multi-head attention隐式学习注册语音的Conformer编码输出中的说话人信息并进行目标说话人分离。实验结果表明,SEF-Net 具有与其他主流目标说话人提取模型相当的性能。 SEF-Net为目标说话人提取提供了一种新的可行的方案,无需使用预训练说话人识别模型或说话人识别损失函数。

OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023

论文题目:前后端模型联合训练的鲁棒音频反欺骗对策

论文作者:王兴明、曾邦、万玉龙、李明

论文单位:武汉大学、昆山杜克大学、OPPO

核心内容:许多语音信号处理系统的准确性和可靠性在嘈杂的环境中往往会急剧下降。本文讨论了在噪声环境中构建鲁棒的伪造语音检测方法。首先,我们尝试将使用预训练的语音增强模型作为前端模型,搭建一个级联系统。然而,增强模型的独立去噪过程可能会扭曲语音合成产生的伪影或擦除语音中包含的伪造相关信息,从而导致虚假语音检测性能下降。因此,本文提出了一种新的前端语音增强

后端伪造语音检测联合训练的框架,来实现对噪声场景鲁棒的伪造语音检测模型构建。所提出的联合训练框架在带噪场景的ASVSpoof2019 LA数据集和FAD数据集上均验证了比朴素的伪造语音检测后端更加有效。此外,本文还提出了一种交叉联合训练方案,使单个模型的性能可以达到不同模型得分融合的结果,从而使联合框架更加有效和高效。

 

OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023

论文题目:Outlier-aware Inlier Modeling and Multi-scale Scoring for Anomalous Sound Detection via Multitask Learning

论文作者:章羽聪,索宏彬,万玉龙,李明

论文单位:昆山杜克大学、OPPO

核心内容:本文提出了一种异常声音检测方法,通过多任务学习将异常样本曝光和内部建模融合在一个统一的框架内。基于异常样本曝光的方法可以有效地提取特征,但其鲁棒性有待提高。内部建模能够生成鲁棒的特征,但这些特征的效果并不理想。最近,一些串行和并行方法被提出来将这两种方法结合起来,但它们都需要额外的步骤完成模型建模。这对于模型的训练和维护都造成了一些不便。为了克服这些限制,我们使用多任务学习的方法训练了一个基于Conformer的编码器,用于异常感知的内部建模。此外,我们的方法在进行推理的时候考虑了多尺度的异常打分,可以更加全面的评估异常值。在MIMII和DCASE2020任务2数据集上的实验结果表明,我们的方法优于最先进的单模型系统,并且与比赛中排名靠前的多系统集成模型有相当的能力。

已阅读:0
本站文章来自网络收集整理和网友投稿,如需申请删除,请与站长联系。
上一篇:有颜有料 三星Galaxy S23系列618更有丰厚购机礼遇
下一篇:没有了
相关热门手机促销优惠信息
3
查看更多手机促销优惠信息