论文部分内容阅读
在面对社会的人口老龄化、残疾人医护以及亚健康群体问题的背景下,本课题围绕基于语音控制的机器人化多功能护理床展开,主要研究在噪声环境下机器人化多功能护理床控制系统的语音识别鲁棒性问题。
在护理床所处的医院病房或社区保健监护中心的家庭终端中,有相当成分的背景噪声和一些特定的随机噪声,这些噪声属于非平稳噪声,在时间域上有脉冲信号,在频谱中也有能量峰,不仅会影响语音信号的低频段,而且会损坏其高频和中频段,影响语音控制系统的识别性能,并且接受护理的老年人语音较正常人微弱、含混且不连续,使用者语音命令中不仅包含命令关键词还夹杂其它词,以及各种非语言的咳嗽声、呼吸声、关门声、音乐声、多人共语声以及背景噪音,这就对控制系统中语音识别的准确性和鲁棒性提出了较高的要求。通过对目前广泛使用的基于隐马尔可夫模型(HMM)识别系统的研究表明,在识别过程中有三处环节可以优化改进,以提高识别系统的准确性和鲁棒性。分别为预处理过程中的语音增强、提取对噪声不敏感的参数作为特征向量和构造鲁棒性较强的声学模型。根据护理床的工作条件,本论文主要在语音增强和构造声学模型两方面进行了研究。
首先,根据FF2和Rasta技术各自的特点,在预处理中创造性的将FF2频率滤波与Rasta滤波技术相结合,运用语音增强的方法提升识别系统的鲁棒性。其原理在于FF2在频域滤波,Rasta在时间域滤波,可以处理各种不同特征的噪声,有效地补偿语音信号中被噪声损害的组成部分。
其次,针对HMM模型对噪声的鲁棒性较低的问题,提出了一种新的从训练语音数据中创建动态匹配网络声学模型(DAN)的建模技术,DAN模型结构可以看作是HMM/GMM模型结构的一种特例,故此所有可以应用于HMM/GMM模型的研究成果同样可以应用于DAN模型。在形成DAN网络结构的过程中,根据模型中的错误率判断需要改进的模型状态,在演化过程中将声学模型中需要改进的状态分解为两个状态,这样不仅可以增加模型的准确度和稳健性,而且可以明显降低模型中的错误计数。
再次,根据DAN和连接器模型(CM)的建模原理,推导从训练语音数据中获取DAN和CM.模型的区别性训练算法。动态匹配网络声学模型组在演化过程中根据分裂优先权和合并优先权的值不断对状态进行分裂与合并,反复优化DAN模型结构,直到满足给定的训练停止准则,生成最终结果模型。
最后,运用以上研究成果,独创性地构建了融合鲁棒性语音识别技术的机器人化多功能护理床的控制系统。在不同信噪比噪声环境下的识别任务中,基于FF2-Rasta+DAN的识别系统比目前广泛采用的基于MFCC+HMM/GMM的识别系统有更高的识别率和鲁棒性。