构建用于大词汇量语音识别的DNN声学模型
来源:56doc.com 资料编号:5D23894 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D23894
资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 密 保 惠 帮助
资料介绍
构建用于大词汇量语音识别的DNN声学模型(中文16000字,英文PDF)
摘要
了解深层神经网络(DNN)的体系结构选择对于改进最先进的语音识别系统至关重要。我们研究DNN声学模型设计的哪些方面对语音识别系统性能最重要,重点研究了前馈网络。我们研究了模型大小(层数,总参数),架构(卷积网络)和训练细节(损失函数,正则化方法)等参数对DNN分类器性能和语音识别器误码率的影响。在Switchboard基准语料库中,我们将标准DNN与卷积网络进行比较,并提出了第一个使用局部连接、非连接神经网络进行声学建模的实验。使用更大的2100小时训练语料库(结合Switchboard和Fisher),我们检查了非常大的DNN模型的性能,其参数比语音识别系统中通常使用的参数多十倍。结果表明,相对简单的DNN架构和优化技术可以提供强大的性能,我们提供有关网络深度超广度等架构选择的直觉。我们的研究结果扩展了以前的工作,以帮助建立一套构建DNN混合语音识别系统的最佳实践,并构成分析更复杂的循环,序列判别和无HMM架构的重要的第一步。
关键词:隐马尔可夫模型深度神经网络(HMM-DNN),神经网络,声学建模,语音识别,大词汇量连续语音识别(LVCSR)
|