发布日期:2024-05-05 04:36浏览次数:
按:此前(公众号:)曾多次报导过百度在语音技术上的进展。日前,百度美研院宣告了其在声纹识别上所获得的突破性成果。研究指出:利用深度自学的方法比传统的i-vector方法在辨识准确率上取得了明显的提升。
声纹识别算法谋求从音频中辨识说出者的身份。两个少见的辨识任务是证实(说出者是不是他声称的那个人)和说出者身份辨识(在一群不得而知的说出者中证实声音的来源)。该项技术早已有了各种应用于。
例如,声纹可以用来指定设备。说出者证实也可以作为金融交易的额外安全措施。此外,类似于智能家居助手之类的分享设备也可以利用这项技术来获取个性化的服务。
最近用于神经网络来展开声纹识别的论文早已改良了传统的i-vector方法(参照Interspeech教程的完整论文或者幻灯片)。i-vector方法指出说出内容可以被分成两个部分,一个部分依赖说出者和信道可变性,另一个部分依赖其它的涉及因素。
i-vector声纹识别是一个多步过程,其牵涉到到用于有所不同说出者的数据来估算一个标准化的背景模型(一般来说是高斯混合模型),搜集充份的统计数据,萃取i-vector,最后用于一个分类器来展开辨识任务。一些论文用神经网络替换了i-vector流水线的方法。其它研究者要么训练了一个文本涉及(使用者必需说道某种程度的话)的端对端语者识别系统,要么训练了文本独立国家(这个模型与说出内容不涉及)的端对端语者识别系统。
我们讲解Deep Speaker:一个端对端的神经声纹识别系统,它在文本涉及和文本独立国家的场景下都获得了较好的效果。这意味这个系统可以被训练来辨识谁在说出,无论是当你对你的家庭助手说道“wake”或者你在会议中讲话。Deep Speaker由深度神经网络层构成,从音频中萃取特征,基于余弦相似性的时间池和三元组损失(triplet loss)。
百度美研院探究了ResNet转录的卷积模型和现有模型在萃取声学特征上的效果。解释:在这里百度美研院用于了人脸识别中使用的三元组损失。在训练过程中,他们自由选择了一个说出者的话语,然后计算出来一个映射(标记为“Anchor”)。再行产生两个映射,一个来自完全相同的演讲者(标记为“Positive”),一个来自于有所不同的演讲者(标记为“Negative”)。
在训练过程中,其目标是让Anchor与positive映射之间的余弦相近度低于Anchor与negative映射之间的余弦相近度。百度美研院展出了Deep Speaker在三个有所不同数据集上的有效性,还包括文本涉及和文本独立国家的任务。其中之一的UIDs数据集还包括约250000名说出者,是科学知识文献中仅次于的数据集。
实验结果表明:Deep Speaker要显著高于基于DNN 的i-vector方法。例如,在一个文本独立国家的数据集中于随机挑选出100个演讲者,Deep Speaker在说出者身份证实任务上的错误率是1.83%,正确率是92.58%。
比起于基于DNN 的i-vector方法,它减少了50%的错误率,提升了60%的正确率。解释:在实验中百度美研院所用于的数据集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立国家的数据集,XiaoDu是文本涉及的数据集,其基于百度的苏醒字(wake word)。
为了在有所不同大小的训练集上做到实验,他们用了全部的UIDs数据集(250,000)和它的一个子集(50,000)。在评估阶段,他们自由选择了一个Anchor,然后再行从测试部分随机地自由选择1个Anchor positive样本和99个Anchor negatives样本。
团队还找到Deep Speaker自学到了与语言牵涉到的特征。当在普通话语境下训练时,Deep Speaker却能在英文证实和辨识的任务上超过5.57%的错误率和88%的正确率。此外,再行用普通话再行用英文训练可比起于要用英文训练,提升了英文辨识的准确率。这些结果都表明出有尽管有所不同的语言听得一起十分有所不同,深度语者却自学到了横跨语言的声音特征。
这些结果与Deep Speech 2的结果类似于,某种程度的架构都可以用来辨识有所不同语言的声纹识别。关于Deep Speaker模型的更好细节,训练技巧和实验结果都可以在论文中寻找。论文地址:https://arxiv.org/abs/1705.02304viaresearch.baidu,翻译成原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:5188开元官网-www.growingdevelopers.com