聆听:面向无障碍应用的个性化语音识别技术

2021-12-02
分享

个性化语音识别技术,旨在利用某个单一用户的具有代表性的语料及其文字内容,来调整通用的超级模型的网络连接状态,使得整个网络能够学习此单一用户的发音特点,从而形成定制化、个性化的特殊网络,大幅度提高其语音识别率和相应的交互体验。

成果名称:聆听:面向无障碍应用的个性化语音识别技术

成果单位:北京小米移动软件有限公司

image.png

一、个性化语音识别技术简介 

当前工业界的语音识别主要是在语音助手中采用一个通用的语音识别模型,即依据所有用户的发音共性来训练统一的大规模深度神经网络从而满足语音请求。然而这样的模型忽视了个体的特殊性,一旦某个用户的说话方式具有某种特殊性,例如带有方言特点的口音、口齿不清、存在发音困难等,将会导致其语音交互体验非常糟糕。

个性化语音识别技术,旨在利用某个单一用户的具有代表性的语料及其文字内容,来调整通用的超级模型的网络连接状态,使得整个网络能够学习此单一用户的发音特点,从而形成定制化、个性化的特殊网络,大幅度提高其语音识别率和相应的交互体验。

二、技术原理

在深度学习和神经网络兴起之后,解决声学自适应问题的比较有代表性的方法有finetune、增加一个输入线性变换层(LIN)、增加一个线性输出层并做多任务学习、使用KLD损失函数、对抗迁移学习以及本成果中提出的LHUC chain模型。 

image.png

LHUC chain自适应网络模型

LHUC模型网络结构如图1所示,其原理为完全不改变通用模型的原有网络参数,转而在每个隐藏层后面加入一层可学习的调节因子来调整不同维度的输出大小,采用特定用户的语音特征进行模型迭代即可完成对调节因子的训练,整个调整过程是基于小米集团首席语音科学家Daniel Povey首创的chain模型来进行训练的。

三、技术创新点

小米AI实验室语音团队在语音识别和说话人自适应技术上,有深厚的研究经验。不仅在动态解码上具备领先体验,而且为小米集团董事长雷军先生定制过其个人语音识别模型,在发布会等场景目标发音人的语音识别准确度远超其他企业。此外,在语音学术界的顶级会议"Interspeech"上也发表了说话人自适应技术相关的论文,具备一定的学术影响力。超大规模的用户、深厚的技术积淀以及优秀的工程化实力均是小米的优势。除此,在技术上也有几点创新:

1、防过拟合技术:以建模单元丰富度为优化准则,自动抽取最具代表性的语句来进行训练;基于超大规模的数据,训练更准确的音素级语言模型,弥补单一用户语料的数量不足。

2、不同口音采取不同技术方案:对中等口音和轻度口音的用户使用LHUC chain模型,从而最大限度保证通用模型的性能;对于口音严重或者有发音障碍的用户采用finetune方法。

3、提高部署速度:在用户启用服务时仅加载个性化模型的调整因子参数,加速模型的部署和推理。

四、应用及展望

个性化语音识别技术的突出价值及应用主要在于帮助构音困难的残障用户以及重口音用户,通过改善其语音识别准确率,提供更高效更顺畅的语音交互体验,让他们平等享受数字时代红利。

此外,坐拥智联万物、日活破亿的小米语音助手小爱同学,小米团队也在思考如何让个性化ASR技术应用价值最大化,譬如发音存在特殊性的老人和儿童用户群体。通过对小爱同学线上真实用户尤其是口音较重的老人用户数据进行实验,实验结果表明个性化技术应用可显著改善目标人群的识别准确率。未来,小米期望AI语音技术能够帮助更多有需要的人群 ,让全球每个人都能享受科技带来的美好生活。