提高语音识别率的算法及其实现研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhaoct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为人们交流的主要方式,是最直接也是最便捷的交互途径。语音识别技术经历过长足的发展,出现了一些较好的开源语音识别系统,包括HTK,Kaldi和Sphinx等。通过对不同的开源语音识别系统进行分析比较,本文选择以Sphinx为基础,研究提高语音识别率的算法及其实现方法。一般而言,语音识别系统包括声学模型、语言模型、字典构建和解码搜索四个模块,其中声学模型影响输入语音到基本声学单元的映射,是语音识别算法的关键模块,所以本文通过对声学模型训练算法的研究来提高语音识别算法的识别率。本文采用经典的GMM-HMM算法作为声学模型训练基础算法。为了设计出最优的命令词语音识别系统,针对算法的基本声学单元选取、HMM状态数和混合高斯模型数选取、增加MMIE区分性训练三个方面进行实验研究。首先研究了基本声学单元的选取对声学模型性能的影响,基于汉语命令词选取了三种不同的声学基本单元:音素、音节和词,实验证明,选取音素作为基本声学单元可以得到更高的语音识别率。然后研究了混合高斯模型数和隐马尔科夫状态数对声学模型性能的影响,实验证明,一味地增加高斯模型数并不能持续提升声学模型性能,且五状态的隐马尔科夫模型可以取得比三状态更好的语音识别率。最后增加了MMIE区分性训练模块,对得到的声学模型进行进一步优化训练,实验证明,对于不同的基线语音识别系统增加MMIE区分性训练都可以不同程度上提高语音识别准确率。在声学模型训练算法中,采用了混合高斯模型协方差矩阵存储语音信息,会导致部分语音信息丢失,从而影响语音识别系统的性能。针对此问题,本文改进并实现了基于混合协方差矩阵的声学模型训练算法。利用声学模型训练过程中,混合高斯模型协方差矩阵对于不同训练阶段的影响不同,以及不同形式的协方差矩阵的特点不同,提出了一种分阶段的混合协方差矩阵声学模型。在第一阶段训练上下文无关的CI模型时使用全协方差矩阵,在第二和第四阶段训练上下文相关的CD模型时进行矩阵转化,并给出了具体的矩阵转化策略。最后分别在汉语数据集和英语数据集下进行实验,实验证明,改进的混合协方差矩阵声学模型,在不显著增加训练时间复杂度的情况下,解决了训练过程中采用单一协方差矩阵时存在的语音信息表达遗漏的问题,有效的提高了语音识别率。在上述研究的基础上,本文设计并实现了实时汉语命令词语音识别系统。针对在实际应用中出现误将背景噪声识别成文本的问题,利用基于混合高斯模型的语音激活检测算法对语音信号进行前端处理,通过最大似然估计准则对语音存在性进行判断,提取语音信号并送入汉语命令词语音识别系统进行识别。经过测试,增加VAD后的实时语音识别系统的识别率得到了提高。
其他文献
图像信息是人们获取信息的重要组成部分,高质量的图像会让人们获得更加准确的信息,而由于图像在获取的过程中受到设备和环境的限制,客观上导致了部分图像信噪比低下。随着人们对图像质量的需求越来越高,真实图像去噪问题在生产和生活中有着重要的作用。针对真实图像去噪,国内外学者提出大量算法,但是这些去噪算法基本上都是基于高斯白噪声的假设,在仿真的高斯图像上能取得理想的去噪效果,但是在实际的相机系统中,由于实际噪
荧光寿命与荧光团所处的微环境密切相关,且不受激发光强度、荧光团浓度和光漂白等因素影响,能够提供与荧光光谱技术、荧光显微技术互补的生物体功能信息。荧光寿命测量系统一般是基于激光扫描共聚焦显微系统(LSCM)搭建的。LSCM的分辨率能够达到亚微米量级,是研究生物组织样品的重要工具,在生命科学、生物医学、工业检测等领域获得了广泛的应用。LSCM中的共焦小孔使得焦平面以外的荧光被屏蔽,只有焦点处的荧光才能
通信信号的自动调制识别(Automatic Modulation Classification,AMC)被广泛应用于战场通信侦察对抗及无线电频谱监测等军事和民用领域。最近深度学习在AMC中显示出较好的应用效果,克服了传统AMC方法中依赖专家经验的“特征工程”的缺陷。然而,现有深度学习AMC的方法大都依赖海量标记数据,且要求决策场景与训练场景有较强的一致性,在现实复杂电磁环境下应用局限。针对该问题,
频域有限差分法(FDFD)在计算具有谐振结构电磁问题上比时域有限差分(FDTD)方法有明显的优势。然而FDFD方法需要求解大型复数稀疏矩阵方程的逆来获得方程的解。就笔者所知,目前文献中没有大型复数稀疏矩阵方程并行求解的高效方案。为解决FDFD串行算法计算规模的限制以及提高计算效率,本文研究了基于MPI的FDFD并行算法,使计算规模和计算效率得到明显提升。本文的主要研究内容如下:(1)本文研究了基于
随着在线文娱市场规模的不断扩大,人们对精神文化和生活品质的追求在不断上升,社会对文化娱乐领域的应用需求也越来越高。面对日益激增的文娱信息,知识图谱以其结构化、网络化的特点,能够更好地表示文娱信息之间的相关性,有助于用户更直观地理解文娱信息之间的联系。目前,面向特定领域的知识图谱应用越来越多,但是市场上与文娱领域相关的知识图谱应用还比较少,也缺少开源的文娱知识图谱。同时,智能问答作为搜索引擎未来发展
在当前的集成电路产业发展中,得益于半导体制造工艺随着摩尔定律的不断发展,集成电路的制程从28nm向7nm甚至5nm和3nm不断推进。集成度的提高使得复杂集成电路的物理设计的时序收敛难度相应提高。如何在物理设计流程中使静态时序分析的结果更为精确,使结果与实际物理特性更吻合,并兼顾完成物理设计全流程所需的时间及算力资源,成为了芯片设计的关键内容之一。论文基于TSMC的7nm工艺下一款ARM架构Cort
雷达在战争中扮演着重要的角色,脉冲相控阵雷达以其优秀的隐蔽性能和抗干扰能力成为重中之重。在信号处理领域,雷达抗干扰技术不断进步,研究不断深入,越来越多的理论成果转化为工程实现。本文以脉冲相控阵雷达的自适应旁瓣相消实现与优化为主要研究对象,结合实验室的合作项目,对数字波束形成、自适应旁瓣相消进行研究与分析,选择合适的矩阵求逆方法,针对硬件平台的特点制定优化改进方案,同时根据项目需求与设计规划完成自适
在物联网和5G通信飞速发展的今天,电子音频设备的种类也层出不穷,模数转换器(ADC)作为各种音频设备中的关键组成部分,在实现模拟信号向数字信号转变领域发挥着不可估量的重要作用。sigma_delta ADC凭借其高精度、高线性度等优点成为高端音频领域最青睐的研究对象。本文的主要目标是设计出具有高分辨率和低采样率的数字降采样滤波器,并通过一系列措施降低电路硬件消耗和芯片面积,以满足高端音频设备的需求
维多利亚时代变革的重要标志之一便是铁路的出现。铁路的修建和火车的发明给人们的出行和生活带来了便利,同时也引发了社会问题。维多利亚文人通过写作表达他们对铁路的焦虑,铁路事故的频发引发文人对生命危机的同情;铁路修建带来的环境破坏引起文人对生态环境危机的忧思;铁路犯罪与投机倒把触发了文人对道德危机的痛斥。
在5G迅速发展的今天,AI+Io T的生态模式也取得了飞速的发展。而在数以亿计的Io T设备中,低端的SoC芯片占据了非常大的市场份额。而I2S作为一种常用的音频外设接口则获得了非常广泛的应用。尤其是在如今短距通信设备普及的时代,诸如拥有WIFI、蓝牙等无线通信功能芯片的应用构建了庞大的物联网体系。对于IC设计公司来说,开发出符合协议且兼容性强的I2S接口控制器并使用高效的方法完成验证工作显得尤为