论文部分内容阅读
人类的语言认知过程是一个多通道的感知过程。除声音信息通道外,唇动视觉信息可以作为一种语音理解源。视觉语言具有许多潜在的应用,因此通过机器的自动唇语识别即唇语技术近年来成为一个备受关注的研究领域。作为人机交互的一部分,对唇读规律及其识别的研究具有重要的理论意义和实用价值,它能够有效地改善语音、手语等其它信道的识别率。本人对国内外现有的有关唇读识别技术和方法进行了研究,在比较现有唇读系统所采用的方法基础之上,针对计算机唇读系统中唇部检测、唇读特征提取和唇语识别等关键技术,提出了改进的算法。首先利用肤色模型和人脸的几何特征检测出人脸,进一步提出一个多级结构的嘴唇区域检测算法检测嘴唇,也就是实现对嘴唇的粗定位到精定位。该方法是在检测出人脸后,通过Fisher变换增强嘴唇区域,然后利用Otsu(最大类间方差法)二值化图像完成粗定位,再结合YIQ唇色模型进一步验证后实现唇部精定位。利用该方法得到的分割结果初始化轮廓的参数,有效提高了轮廓定位的速度和准确度。在嘴唇的跟踪和特征提取方面,提出基于改进的snake模型的嘴唇轮廓提取的方法。此方法首先自动生成snake的初始模型,然后在GVF—snake的基础上重新设计了snake的外部能量函数,利用色彩差分运算提取有意义区域的边缘梯度,对GVF向量场进行了归一化处理并改进了平滑因子。该改进的算法大大提高了嘴唇轮廓提取的准确度。然后采用了光流法和snake模型结合的方法对序列图像进行跟踪,能较好地解决因动态图像帧间误差积累而带来的跟踪错误的问题。为提取嘴唇的运动特征,本文提出基于帧间特征点运动矢量的唇动特征提取方法,提取了有效的嘴唇特征点并研究了图像序列相邻帧之间的嘴唇运动的规律,获得包含大量口型动态信息的有效特征。在唇读识别方面,运用了BP神经网络的唇读识别方法。采用附加动量法和自适应学习速率法在样本集上训练BP网络,该训练方法可避免网络陷入局部最小的问题,同时加快BP网络的收敛速度。在唇动特征的支持下,识别算法在对说话人的发音口型识别中,均取得了满意的结果。测试结果表明本文提出基于唇动特征的唇语识别算法是有效的,且能够一定程度地适应光照、唇色等条件变化,充分考虑了发音时口型轮廓的变化特征。基本能够实现在视频环境下,说话人实时发音,计算机能同时在允许的一定时间延迟内识别其口型类别。