论文部分内容阅读
唇读的含义为通过说话者的口型来实现对其表达内容的理解,即可以“读出”表达者的内容,通过研究唇读我们可以做到利用视觉信息获取听觉信息,其现实意义是可以帮助听力障碍者获取消息,为其学习以及与正常人的交流提供便利条件。而且可以增加情报来源的途径。对于我们人类来说,交流过程本来就是一个多途径的过程,在交流过程中不能只根据对方的说话内容来判断对方想要表达的想法,还要结合口型以及肢体语言来更好地确定对方想要表达的内容。尤其是在非常吵闹的环境中,往往依靠口型来辨别对方的内容。由此看来研究唇读是非常有意义的。唇读作为一种不需要通过发生就可以进行交流的交流手段,在现实应用中也是有一些困难的。比如由于发音方式以及位置还有嘴唇开闭程度的不同,会给我们或者计算机进行唇读造成一定困难。但是这不能影响我们研究它的热情。为了能够实现唇读功能,计算机会经历唇检测、特征提取以及识别等多个步骤,我们可以将其分为三步:第一步为唇动检测,即从图像或者视频中对嘴唇进行定位;第二步为特征提取,在这一步需要我们对唇读的有效特征进行提取;第三步为唇读识别,通过提取的有效特征来识别唇语。本论文采取支持向量机算法来进行嘴唇识别,这种方法能够很好地将与嘴唇没有关系的其他脸部信息消除,而且其准确性以及速度能得到保证。嘴唇的外唇轮廓来进行口型的提取是一个比较可行的方法,而且这种方法不会受到头部移动的影响。对嘴唇进行识别的过程采取了基于K-means算法的动态聚类算法,并且根据这种算法,对嘴唇紧闭,微张以及张开的情况进行了验证工作。为了识别唇读,本文采取的为神经网络算法,我们根据传统的BP神经网络算法提出了改进,使得改进的BP神经网络算法能够更好地适应于各种条件,并且还提高了学习的效率。