重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

发布时间：2019-01-27 11:18:32 所属栏目：建站来源：鄢志杰、薛少飞、张仕良、郑昊、雷鸣

导读：副标题#e# 阿里妹导读：语音识别技术作为人工智能技术中的重要组成部分，成为影响人机交互的核心组件之一，从各种智能家用 IoT 设备的语音交互能力，到公共服务、智慧政务等场合的应用，语音识别技术正在影响着人们生活的方方面面。本文将全面介绍阿里云语

对于 cFSMN，通过在网络的隐层后添加一个低维度的线性投影层，并且将记忆模块添加在这些线性投影层上。进一步的，cFSMN 对记忆模块的编码公式进行了一些改变，通过将当前时刻的输出显式的添加到记忆模块的表达中，从而只需要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量，加快网络的训练。

上图是我们进一步提出的 Deep-FSMN（DFSMN）的网络结构框图，其中左边第一个方框代表输入层，右边最后一个方框代表输出层。我们通过在 cFSMN 的记忆模块（红色框框表示）之间添加跳转连接（skip connection），从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中，高层记忆模块的梯度会直接赋值给低层的记忆模块，从而可以克服由于网络的深度造成的梯度消失问题，使得可以稳定的训练深层的网络。

相比于之前的 cFSMN，DFSMN 优势在于，通过跳转连接可以训练很深的网络。对于原来的 cFSMN，由于每个隐层已经通过矩阵的低秩分解拆分成了两层的结构，这样对于一个包含 4 层 cFSMN 层以及两个 DNN 层的网络，总共包含的层数将达到 13 层，从而采用更多的 cFSMN 层，会使得层数更多而使得训练出现梯度消失问题，导致训练的不稳定性。

我们提出的 DFSMN 通过跳转连接避免了深层网络的梯度消失问题，使得训练深层的网络变得稳定。需要说明的是，这里的跳转连接不仅可以加到相邻层之间，也可以加到不相邻层之间。跳转连接本身可以是线性变换，也可以是非线性变换。具体的实验我们可以实现训练包含数十层的 DFSMN 网络，并且相比于 cFSMN 可以获得显著的性能提升。

从最初的 FSMN 到 cFSMN 不仅可以有效的减少模型的参数，而且可以获得更好的性能。进一步的在 cFSMN 的基础上，我们提出的 DFSMN，可以更加显著的提升模型的性能。如下表是在一个 2000 小时的英文任务上基于 BLSTM，cFSMN，DFSMN 的声学模型性能对比。

从上表中可以看到，在 2000 小时这样的任务上，DFSMN 模型可以获得比 BLSTM 声学模型相对 14% 的错误率降低，显著提高了声学模型的性能。

传统的声学模型，输入的是每帧语音信号提取的声学特征，每帧语音的时长通常为 10ms，对于每个输入的语音帧信号会有相对应的一个输出目标。最近有研究提出一种低帧率（Low Frame Rate，LFR）建模方案：通过将相邻时刻的语音帧进行绑定作为输入，去预测这些语音帧的目标输出得到的一个平均输出目标。具体实验中可以实现三帧（或更多帧）拼接而不损失模型的性能。

从而可以将输入和输出减少到原来的三分之一甚至更多，可以极大的提升语音识别系统服务时声学得分的计算以及解码的效率。我们结合 LFR 和以上提出的 DFSMN，构建了基于 LFR-DFSMN 的语音识别声学模型，经过多组实验我们最终确定了采用一个包含 10 层 cFSMN 层 +2 层 DNN 的 DFSMN 作为声学模型，输入输出则采用 LFR，将帧率降低到原来的三分之一。识别结果和去年我们上线的最好的 LCBLSTM 基线比较如下表所示。

重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

通过结合 LFR 技术，我们可以获得三倍的识别加速。从上表中可以看到，在实际工业规模应用上，LFR-DFSMN 模型比 LFR-LCBLSTM 模型可以获得 20% 的错误率下降，展示了对大规模数据更好的建模特性。

NN-LM 语言模型

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/6

首页

尾页

针对移动端转码问题给	选择短网址的好处是可
千万不要因为盲目追求	SEO的职业生涯从seo初