论文部分内容阅读
语音识别技术在实验室条件下逐渐发展和成熟,但在噪声环境下的语音识别问题仍然是语音识别技术完全从实验室走入人们的日常生活的一大障碍。因此,作为人们交流时的一个重要的辅助信息-语音视觉信息,成为了人们在寻找在语音本身之外克服这个障碍的一个值得关注的方面,唇读技术能在噪声环境下作为辅助手段来提高语音识别的识别率。同时,研究针对聋哑人的辅助交流系统也受到越来越多的关注;结合视频信息的网上辅助教学系统也有广阔的应用前景。基于其广阔的应用背景,近年来越来越多的目光投向了唇语识别与合成领域的研究。但是唇读技术在走向现实应用的过程中仍还有很多问题要解决,首先是现实环境中嘴唇区域的定位识别问题,唇语识别时的实时性问题,其次,如何准确的识别话者的口形,如何根据口形构建精简准确的标准唇语库也是影响系统识别率的一个重要的方面。本文针对嘴唇图像的口形表示和唇语库的构建方面做了相应的探讨和研究工作。通过对特征提取算法的研究,能够让系统在识别或合成过程中对嘴唇图像中所表示的口形做出准确的判断和表示;同时采用聚类算法,去除原始唇语库中的相似冗余图像,精简了唇语库,降低其存储容量,满足了低数据量存储应用方面的要求。主要的研究内容包括以下几个方面:(1)分析了各种口形表示方法,采用以内嘴唇轮廓曲线表示对应的口形。提出了嘴唇区域提取,边缘提取和曲线拟合相结合的特征提取方案。同时根据图像的口形特征对图像库进行聚类,去除了图像库中相似冗余图像。(2)分析各种颜色空间,采用chromatic颜色空间映射和阀值裁减的方法,有效的从原始图像中提取出嘴唇区域;采用有效的特征点选取策略,边缘检测算法和曲线拟合算法,实现了对嘴唇图像表示的口形的正确有效的提取;采用将轮廓曲线的参数作为口形的特征向量,有效的减少了特征向量的维数,为实现低数据量应用,如网络传输,聚类等,节约了时间和资源。(3)比较分析了各种特征向量情况下各种距离计算的聚类算法。采用Fuzzy C-means和K-means聚类算法对唇语库中图像聚类,去除了原始唇语库的冗余,大大的降低了唇语库的存储量。