论文部分内容阅读
近年来,随着计算机科学、模式识别和人工智能技术的飞速发展,基于可视语音的人机交互应用吸引了越来越多相关领域的研究者的关注。而作为可视语音系统的支撑基础和关键技术,嘴唇分割和嘴唇轮廓提取技术,具有重要的研究价值和应用前景。本文即将唇读系统的处理与实现分别从嘴唇分割和轮廓提取两个方面予以展开:嘴唇分割算法方面,主要依托于无监督学习中的模糊聚类框架,本文所提的嘴唇分割算法的创新点主要有二:1)在通过单纯的颜色信息得到的聚类结果之上,对内外嘴唇区域分别进行椭圆建模,引入空间距离信息,使得在颜色空间中距离相近而实际却属于不同类别的像素点得以区分(包括嘴唇区域,内嘴唇区域,以及嘴唇区域外部)。2)在聚类框架和迭代过程中引入了竞争机制,使得算法可以对于不同开合状态的嘴唇图像自适应地选取合理的聚类数目。通过与近年来一些嘴唇分割的主流算法的对比实验,本算法表现出有更高的分割准确率,尤其是对于张嘴图像分割,其受口腔内部像素点的影响更小。嘴唇轮廓提取方面,目前的研究主要集中于嘴唇外轮廓的提取和跟踪,而对于嘴唇内轮廓的提取算法甚少涉及。由于竞争机制的引入让口腔内部的各个成分得以更清晰地呈现,使得嘴唇内轮廓的提取成为可能。基于嘴唇分割得到的各个类别的隶属度图像,在二次曲线拟合的形状约束下,以最大似然估计(MLE)原则,通过梯度上升优化算法,可以得到嘴唇的内外轮廓。实验验证了该算法的有效性和准确性。