论文部分内容阅读
近年来,语音识别技术在实验室条件下逐渐发展和成熟,作为人们交流时的一个重要的辅助信息,唇读技术能在噪声环境下提高语音识别的识别率,在特殊渠道的情报获取方面也有着不可估量的作用。唇读研究的内容涉及模式识别、计算机视觉、图像处理等多个领域,具有广阔的应用前景,由计算机来实现和完成这项技巧,对人机交流技术有着深远的影响。国内唇语研究起步较晚,是一个较新的课题,正引起越来越多的研究人员的关注。本文在广泛阅读国内外有关唇读识别技术的参考文献的基础之上,通过对国内外现有的唇语识别系统中唇定位、唇语特征提取和识别技术的研究探讨和比较分析,设计开发了基于内唇特征提取的唇语识别系统,强调了内唇在唇语识别中的核心作用。唇定位方面,本文提出了一种灰度平均唇定位方法,通过自制的韵母唇构建灰度平均唇模板,在唇读图片上匹配唇区域。该方法简单易行,能快速准确的定位唇位置,正确率高于90%,适合发音种类不多且背景简单的唇读图片。特征提取方面,本文创建了内唇口型模板,且重新定义内唇曲线函数表达式,将内唇的几何和灰度特征作为唇语识别的基本特征。其中,内唇模板是对传统双唇线模板的简化,强调了内唇的核心作用;重新定义的内唇曲线更为敏感,描述能力更强,是对传统双唇线模板的优化。该方法有效提取了唇读的主要特征,降低了计算复杂度的同时具备较高的识别率。唇语识别方面,本文提出了一种特征聚类识别方法,利用聚类算法得到训练图像中内唇的几何和灰度特征聚类中心,用距离函数完成对测试样本的识别。将聚类算法应用于识别也是一次新的尝试,且该方法能够较好实现识别过程。在本文提出的基于内唇特征提取的唇语识别系统中,研究的重点是特征提取中内唇线模型的构建和应用,是一次全新的尝试。本文的实验对象为单纯的视觉信息,集合为单个韵母发音,采用K-means聚类算法,分别运用欧氏距离函数和和范式距离函数准则,进行基于内唇特征提取的识别。实验结果证明该方法降低了计算复杂度具备较高的识别率,新的尝试具可行性。