电话语音识别技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：Mijieer

【摘要】

：

电话是最普及的话音通信工具，是各种先进语音技术最大的潜在应用领域。语音识别是基于电话平台的语音应用的一项核心技术。大词汇量连续语音识别技术(LVCSR)在最近十几年取得

【作者】

：

韩兆兵

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2004年期

【关键词】

：

电话语音识别通道补偿马尔可夫模型声学建模

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

电话是最普及的话音通信工具，是各种先进语音技术最大的潜在应用领域。语音识别是基于电话平台的语音应用的一项核心技术。大词汇量连续语音识别技术(LVCSR)在最近十几年取得长足的发展，但当LVCSR系统从基于高质量麦克风的桌面应用移植到电话网络的应用环境时遇到了很多困难。提高电话语音识别鲁棒性是实现其商用化的关键问题。本文针对汉语电话语音识别应用中的技术难点，在以下几个方面作了广泛而深入的研究。首先，在电话语音识别的环境补偿方面，本文提出一种新的基于矢量分段多项式近似的噪声环境补偿算法动态补偿背景噪声和通道噪声引起的数据失配。并把此算法应用到稳态噪声和非稳态噪声环境。对于稳态噪声环境，在log谱域采用批处理EM(BEM)方法；对于非稳态噪声环境，在倒谱域采用递归EM(REM)方法。这两种方法都是基于最小均方误差估计(MMSE)准则的特征补偿。算法不仅可以针对高质量线性通道(如多数固定市话)，同时也可以针对不稳定的非线性带噪通道(如一些长途电路，越洋电路以及无线压缩编码话音等)做出有效的补偿。实验结果表明，提出的VPP环境补偿算法明显优于传统的特征补偿算法。其次，在电话语音声学建模方面，本文详述了国际上常用的两种声学建模方法，合并聚类(AGG)和决策树(TB)聚类，分析了它们的优点和缺点，并进行相应的改进，然后利用它们各自的优点，提出组合声学建模算法：利用数据驱动的聚类AGG得到精确的模型；通过规则驱动的聚类TB解决训练中未知的模型。另外还研究了决策树分裂时最大似然准则和区分性准则的性能差异。大词量连续语音识别实验结果表明，和单一的决策树聚类算法比较，提出的组合聚类算法对识别率有明显的提高。最后，在电话语音识别的自适应方面，本文详细分析了国际上通用的各种电话语音识别系统的自适应算法的优点和缺点。提出基于先验知识和目标驱动的GJMAP(GeneralizedJointMaximumaPosterioriAdaptation)算法，通过调节两个惩罚因子控制先验知识和自适应数据之间的权重关系，把MAP、MLLR和JMAP统一到同一理论框架下。基于先验知识和目标驱动主要是指回归树的定义，回归树根据先验的语音学知识和自适应数据的多少动态决定，以自适应数据的似然概率增加为目标。在大词汇量连续语音识别有监督方式下，提出的GJMAP算法和传统的方法比较识别率有显著的改善。

其他文献

多源信息辅助惯性定位技术在地籍测量中的应用研究

随着GPS(Global Positioning System)卫星定位技术及全站仪等多技术结合的综合测量方法精度和效率的大幅提高，促进了地籍测量技术的进步，但GPS定位技术存在的环境依赖度高和全

学位

地籍测量捷联惯性定位技术误差积累多源信息平滑滤波逆向导航解算技术

一类线性随机系统的满意容错控制

“满意控制”是控制工程领域的一个热点问题，目前还没有一个统一的定义，但其主要是直接以多项区域形式表示的期望性能指标为目标函数，并使被控系统同时满足所有期望性能指标的控

学位

满意控制容错控制随机系统区域极点方差相容性

智能网络化UPS的研究与开发

不间断电源又称UPS(Uninterruptible Power System)，自UPS十几年前在国外出现时，是以确保在发生市电故障时向计算机设备提供电源保护为唯一任务的。但问题是，如果停电超过一定时间比如两小时而用户没有及时处理，UPS电瓶耗尽后会出现什么样的结果?事实上，在这种情况下系统所受到的伤害往往比单纯关闭系统更严重。为此，具有一定智能和网络功能的智能网络化UPS就应运而生了。它能在电

学位

智能网络化UPS监控软件Keil C51通讯显示模块

便携式气动打标系统的研制

机械产品在生产过程中需要对零部件进行有效的管理,在市场上需要对其进行识别及质量跟踪,因此,需要对机械零部件的重要部分进行标识.在机械半成品加工过程中,往往也需要加入

学位

气动打标数控步进电机控制插补细分

基于参数辨识的同步发电机的控制方法研究及实现

在提高电力系统稳定性并改善其动态品质方面，发电机励磁控制已经成为了非常重要的措施。通过对发电机励磁进行适当的控制，可以有效改善电力系统的可靠性和动态响应方面的特性。

学位

同步发电机参数辨识励磁控制电气参数模糊神经网络

轴向磁场无铁心永磁电机控制方法研究

盘式无铁心永磁同步电机具有电机结构紧凑、轴向尺寸短、功率密度高、电机效率高等优越的性能，电机几何尺寸要小于相同的输出功率对应的其它径向磁场电机;该电机未来在风力发

学位

盘式无铁心永磁同步电机直接转矩控制本体模型动态性能

基于模糊神经网络辨识技术的无刷直流电动机控制系统研究

系统辨识一直是控制器设计的一个重要手段，但随着系统的复杂度、非线性和不确定性越来越高，传统的辨识方法已经变得难以胜任。模糊神经网络辨识技术由于其自身的特性，它对非线性和不确定性有较强的适应能力，因此能有效地辨识复杂和病态结构的系统。另一方面，无刷直流电动机具有交流电动机的结构简单、运行可靠、维护方便等一系列特点，又具有直流电机的运行效率高、无励磁损耗以及调速性能好等诸多优点，在很多场合有广

学位

无刷直流电动机模型辨识模糊控制神经网络

面向策略型消费者的双渠道供应链定价策略研究

学位

机械手作业扰动下UUV动态控位技术研究

科学技术的发展以及人类对资源的迫切需求使人们逐渐意识到开发利用海洋资源的重要性。随着人类对海洋探索和开发的深入,无人水下航行器(Unmanned Underwater Vehicle,UUV)自

学位

UUV机械手水下自主作业动态控位

干涉SAR相关技术研究

合成孔径雷达(Synthetic Aperture Radar,SAR)技术始于20世纪50年代初,作为一种主动式遥感方式,相比于光学传感器,它能够全于时、全于候获取高分辨率遥感雷达图像.通过对同一

学位

干涉图相干性估计小波滤波交叉干涉测量

电话语音识别技术研究

与本文相关的学术论文