基于深度卷积神经网络的抗噪鲁棒语音识别方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:csdn99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习作为一种新兴技术得到了蓬勃的发展,推动了人工智能多个应用领域的巨大突破。语音识别作为最具代表性的人工智能应用之一,在这场技术革命中,承担了主要的角色。在一些信噪比比较高,且说话人距离麦克风比较近的场景中,例如语音搜索、聊天机器人等应用中,语音识别系统的性能已经达到了广泛可用的水平。尽管如此,在另外一些信噪比比较低,或者说话人距离麦克风比较远的场景中,例如会议室环境、公共场所等应用中,语音识别系统的性能很容易受到各类噪声或回声的影响,导致效果不尽人意。在本文中,我们把深度卷积神经网络(Very Deep CNN,VDCNN)引入到了抗噪鲁棒语音识别任务中,深入探讨了输入特征在两个维度上的扩展与模型深度的关系以及对系统性能的影响,探究了对于抗噪鲁棒语音识别任务合适的池化策略和零填充策略,确定了对于深度卷积神经网络更好的输入特征图数量。得到深度卷积神经网络适合抗噪鲁棒语音识别任务的最优结构后,我们进一步把残差学习的思想引入,得到的深度残差网络进一步提高了性能。我们还发现,深度卷积神经网络有模型参数量小,收敛速度快等优势。除了给出实验结果,本文还用可视化的方法分析了深度卷积神经网络的抗噪本质。本课题在两个典型的抗噪鲁棒语音识别任务上进行了验证。本文提出的最好模型在Aurora4任务中取得了8.36%的词错误率,与LSTM-RNN系统相比有相对22%的性能提升,在没有使用任何特征增强和模型自适应方法的前提下与此前最好的系统相比有相对14%的性能提升。在AMI任务中,也取得了比LSTM-RNN系统好相对4%的结果。
其他文献
吡啶及其衍生物是非常重要的化合物,它们不仅广泛存在于各类具有生理活性的天然产物和药物中,也是诸多功能材料的重要组分,更是生命活动不可缺少的物质。吡啶环上氮的吸电子诱导
<正>上海文艺界年年的保留节目,也在年年出新意。第21届上海国际电影节的两大亮点,其一是传统戏剧的3D化,其二是重新配音的沪语版电影《大李小李和老李》的上映,皆让人惊喜。
重金属离子作为水、土壤等污染的重要组成之一,由于重金属离子自身具有不可降解的特点,尤其是重金属离子与生物体内自身的有机化合物结合会进一步形成比重金属本身毒性更大的
高校学生管理工作的建设是实现教育现代化的重要途径和方法。这是我国的战略选择,受到大学的高度重视。作为校园信息化的新形式,智能校园已成为当前高校学生管理工作研究的重
据"www.britishplastics.co.uk"报道,Silvergate Plastics公司推出生物基塑料Floreon,并在成型厂家进行了成型试验,拟将其作为塑料瓶生产中高密度聚乙烯(HDPE)的替代品。
氧化亚铜(Cu2O)是一种重要的p型半导体材料,禁带宽度为2.17eV,可被波长为400-800nm的可见光激发,理论上,光电转换效率可以达到20%。它独特的光学和电学性质,使其在光催化降解废水
目的分析和探讨血液净化抢救毒蕈中毒的疗效。方法选取本院2009年1月-2012年1月期间抢救的25例毒蕈中毒患者为研究对象。根据患者的病情,进行常规抢救、血液灌流、解毒治疗等
石墨烯(Graphene)是一种新型碳材料,其晶格结构是由碳原子按照六边形排列而成的单层二维结构。近年来科学家通过对石墨烯的研究发现其具有许多特殊的优良性能,主要包括:1、较高
目的:总结小儿气管支气管异物的诊治经验。方法:回顾性分析我院20多年来收治的小儿气管支气管异物病例资料。结果:179例在全麻下经支气管镜成功取出,7例死亡。结论:小儿气管