论文部分内容阅读
手语是听力和语言障碍群体沟通交流的一种语言。全世界共有2.3亿左右的聋哑人,作为社会弱势群体的聋哑人经常会遇到生活、工作、心理、教育、交流等很多方面的问题。尤其是交流问题,手语的普及程度较差,能够掌握手语的人数量很少,这就使得聋哑人的沟通交流存在很大阻碍。手语识别的研究自上世纪九十年代开始,它通过一定的计算机技术将手语以非操手语者可以理解的形式呈现出来,从而帮助聋哑人无障碍地表达和交流。该技术作为人机交互领域的研究内容之一,对语言交流障碍群体有着重要的现实意义。目前基于数字设备的手语识别准确率已经达到较高的水平,对特定人手语的识别也有了较好的性能,但是现有的手语识别系统在用户变换情况下的性能差强人意,远不能达到理想的性能要求。而非特定人手语识别恰恰是手语识别系统得以实际应用亟待解决的关键问题。个体之间手语数据的差异性和手语训练样本的匮乏是牵制非特定人手语识别系统性能的重要原因。为了解决以上问题,本文对手语识别中的关键算法进行了研究,并对现有算法进行了改进。主要研究工作有以下两个方面:(1)对基于隐Markov模型(Hidden Markov Model,HMM)的手语训练建模进行了研究,对HMM三个基本问题的解决进行分析,并针对其中的训练问题常用到的Baum-Welch算法收敛于局部最优解的不足进行改进,引入自适应诱导进化遗传算法进行手语词的HMM参数训练,从而在给定的解空间中找到全局最优解。(2)针对非特定人手语识别中不同手语者个体间的差异性和手语训练数据的不充分这两个难点问题,本文提出了基于最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)算法和最大后验概率(Maximum a posteriority,MAP)算法的自适应手语识别框架,该方法优化了MLLR回归类的划分,并且提供给MAP更精准的初始模型,充分发挥了MLLR的快速性和MAP的渐进性。然后引入了最小分类误差(Minimum Classification Error,MCE)模型参数估计算法,以弥补模型参数自适应方法的局限性,进一步降低系统误识率。接着对该算法中计算量大的缺点进行了改进。实验结果表明,本文算法在非特定人手语识别中的性能要优于已有的自适应算法,该算法利用少量自适应数据便能使得非特定人手语识别达到良好的效果。