论文部分内容阅读
随着人工智能的发展,多媒体交互技术越来越得到相关领域研究者的关注。而语音识别技术作为交互技术的核心之一也得到了快速的发展。但是,在噪声和干扰下,语音识别率明显下降,从而使得作为语音识别辅助技术的唇读技术得到了更多的关注。而嘴唇分割是作为唇读技术的第一步至关重要。本文分析了嘴唇分割的相关算法,然后提出了在模糊聚类框架内基于运动信息的嘴唇图像序列分割算法。 基于运动信息的模糊聚类嘴唇图像序列分割算法是在模糊聚类的框架内融入运动信息和参考颜色信息,从而实现对嘴唇图像序列的快速准确分割。通过分析嘴唇图像序列,作者发现两点信息:1)由于嘴唇的运动是连续的,对于那些运动较小或者静止的像素点,它们被分为嘴唇类和非嘴唇类的概率也应与上一帧保持连续性,而运动剧烈的像素点则没有这种连续性。并且,本文选择用Lucas-Kanade算法计算的光流矢量来表示帧间的嘴唇运动信息;2)对于同一个人的嘴唇序列来说,他/她的嘴唇颜色不会发生较大的变化,那么,嘴唇的聚类中心也不会发生较大的移动。因此,可以在目标函数中加入一个参考的颜色信息惩罚项来约束嘴唇聚类中心的变化。 实验结果表明本文提出的嘴唇分割算法在处理嘴唇序列的时候比其它优秀的算法更加的稳定,准确性也更高。并且,在嘴唇分割基础上,本文用一个16点模型来提取嘴唇轮廓。轮廓提取的结果非常的精确,从侧面证明了本文提出的基于运动信息的模糊聚类算法的嘴唇分割效果更好。