基于卷积神经网络的语音识别研究

来源 :北京交通大学 | 被引量 : 41次 | 上传用户:lalalan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,随着深度神经网络(Deep Neural Network,DNN)在语音识别中的成功应用,研究人员陆续展开了对其他网络结构的探索。卷积神经网络(Convolutional Neural Network,CNN)凭借其特殊的网络结构和强大的特征学习能力,吸引了许多学者对其进行深入研究。目前,在声学模型构建和声学特征提取中,CNN的潜力还有待进一步挖掘。本文从语音识别基本原理出发,以声学模型和声学特征为切入点,主要研究了深度卷积神经网络在语音识别任务中的应用:(1)研究了基于深度卷积神经网络的声学建模,本文从模型结构、训练算法等方面深入对比分析了 Deep CNN、DNN以及GMM在声学建模中的应用,阐述了 CNN用于描述HMM状态输出概率分布的可行性,着重研究了不同网络深度下CNN的性能表现。应用CNTK和Kaldi开源语音识别平台分别实现了基于GMM-HMM、DNN-HMM以及不同深度的CNN-HMM声学模型的识别系统,在850人实验数据集上通过实验表明:2卷积层的CNN-HMM声学模型较DNN-HMM、GMM-HMM声学模型在音素误识率上有着8.29%和36.89%的相对降低,6卷积层的CNN-HMM声学模型较2卷积层的CNN-HMM声学模型在音素误识率上有着8.13%的相对降低。(2)研究了基于深度卷积神经网络的时-频谱特征提取,本文分析了现有声学特征Fbank的两点缺陷:设计过于依赖经验性知识,存在部分语音信息损失。从语谱的物理意义出发,提出了基于Deep CNN的多帧并联的时-频谱特征提取方法。使用CNTK设计了相应的网络结构,通过Kaldi开源语音识别平台在850人实验数据集上进行实验,实验表明基于时-频谱特征的系统较Fbank的系统在音素误识率上有2.16%的相对降低。
其他文献
本文从酒店行政楼层自身及其产品的特点出发,对酒店客户关系管理运作过程及其优化进行研究,从而为行政楼层的客户关系管理应用提供参考;通过对具体酒店的行政楼层客户关系管
本文针对美国亚裔女性主义与美国亚裔民族主义之间在种族与性别的问题上长期存在的争议提出解决的办法:解构处于统治地位的性别和种族模式,重构公平的性别政治。并且,通过对
<正>极坐标与参数方程是高中数学新增内容,但在高考试卷的考查问题中属于易做题,为此把握其题型特点显得有为重要,下面举例说明:一、参数方程、极坐标方程、普通方程和直角坐
目的探讨血浆(1-3)-β-D葡聚糖检测对艾滋病(AIDS)患者合并播散性马尔尼菲青霉菌病(DPsM)的诊断价值,为临床提供早期治疗依据。方法回顾性研究2010年4月-2014年7月174例AIDS
<正>耗氧量(Oxygen consumed)简称OC,是用来表征饮用水和较洁净的水中所含可被高锰酸钾(在酸性条件下或碱性条件下)氧化的物质(以有机物为主,也包括无机还原性物质,如NO2-和S
<正>1引言镇静剂是一类安眠镇静类的药物,临床上常见误服过量、滥用、投毒或服药自杀等事件发生;此外,在食品动物养殖中,安眠镇静药物被一些不法分子作为生长促进剂用于动物
日本现代社会救助制度,是在东方儒家"家族主义"与西方"民主主义"的碰撞和妥协中构建的,其遵循明确国家责任、无差别平等、保障最低生活水平的原则,体现着家族主义及其儒学渊
【目的】研究新疆玛纳斯河流域盐渍化严重程度及分布情况,为治理土壤盐渍化提供参考。【方法】采用2007-08-19的玛纳斯河流域Landsat TM影像图,通过主成分分析选出典型波段,
目的探讨总胆固醇(TC)、甘油三酯(TG)和胰岛素敏感指数(HOMA-IR)等3个指标对非酒精性脂肪肝(NAFLD)诊断价值。方法分析122例本院门诊及住院的患者总胆固醇、甘油三酯、空腹血