融合韵律信息的汉语大词汇量连续语音识别方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:jlq520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音中的韵律对人们理解语义具有非常重要的作用,尤其对于汉语这种典型的声调语言来说,韵律中的声调更具有区分语义的功能。然而当前的汉语语音识别技术并没有充分发挥韵律信息的作用。本文主要针对如何将声调信息应用于汉语大词汇量连续语音识别展开研究,具体解决声调特征的提取、声调的建模和声调信息与语音识别相结合的问题,主要工作及贡献包括以下几点: 1)人在讲话前会根据讲话内容对发音过程进行预先规划。受此启发,本文提出了基于句子假设进行韵律推断和声调模型打分的框架,即基于一遍识别输出的句子假设,推断其声调,根据推断与识别的一致程度对句子假设进行二遍打分,从而提高识别系统的最终识别率。 2)在实现过程中,改变了过去方法只利用基频、能量等语音参数作为声调模型特征的做法,在广泛分析了影响声调在连续语流中变化的各种因素后,本系统选择了与声调表现最相关的几种语言学特征结合语音特征共同作为韵律推断的依据。 3)采用条件随机场对声调信息进行建模。与支撑向量机、神经网络、决策树等方法相比,基于条件随机场的建模方法能够融合各种特征,对特征的处理也十分灵活,而且更适合语音识别这类序列标注任务。 4)定义了基频检测的“可靠度”,并将可靠度与二遍解码阶段声调得分的权重相联系,避免了不可靠的基频特征影响声调模型的性能,使系统的识别率进一步得到提高。 实验结果表明,本文提出的声调信息建模和应用方法,使汉语大词汇量连续语音识别系统的字错误率相对下降了7.62%。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
随着移动互联、物联网及大数据等业务概念的提出,数据流量成超千倍增长,这对作为传输主干道的光纤通信系统提出了迫切要求。基于数字信号处理(DSP)的相干检测结合高阶调制格
固体培养基灭菌通常采用高压蒸汽灭菌方法,存在灭菌时间长、不能实现生产线连续生产等问题。本研究以枯草杆菌黑色变种芽胞(ATCC9372)为指示菌,利用家用800w微波炉对固体培养基
对硬件结构有着严格体积限制的高速、远距离、分布式数据传输技术是细长阵声纳系统的关键技术之一。本文以拖曳线列阵声纳为实际应用背景,围绕细长阵声纳中的关键部件——自定
本文通过对荣华二采区10
期刊
基于图像的目标的识别和跟踪技术已经广泛应用于国防与国民经济建设的诸多领域,融合了计算机视觉、图像处理与模式识别以及计算机应用等相关领域的先进技术和研究成果。对于识
距离模糊作为合成孔径雷达(Synthetic Aperture Radar)系统设计中的一个重要的指标,直接影响着SAR成像的质量,特别是星载SAR系统,距离模糊对成像的影响更为直接,更为重要,不能忽视。
近年来,资源共享型P2P网络的发展引发人们对P2P网络安全、管理、计费等问题的关注。访问控制是应用级网络安全服务中重要的一种,它保证了在系统访问控制策略约束下,合法结点获得
生物识别(Biometrics)技术是依靠人类自身所固有的生理或行为特征进行身份验证的一种手段。由于手背静脉生理上具有唯一、稳定和活体的特性以及手背静脉识别技术在实际应用中
移动窗显示技术应用于遥感卫星图像地面处理系统已有多年的历史。近年来,国际上也逐渐研究了几套卫星过境实时图像远程移动窗显示与信息播报系统。但是,同此前的移动窗显示技术