基于内嘴唇的口形特征提取和聚类算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:moxigege
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术在实验室条件下逐渐发展和成熟,但在噪声环境下的语音识别问题仍然是语音识别技术完全从实验室走入人们的日常生活的一大障碍。因此,作为人们交流时的一个重要的辅助信息-语音视觉信息,成为了人们在寻找在语音本身之外克服这个障碍的一个值得关注的方面,唇读技术能在噪声环境下作为辅助手段来提高语音识别的识别率。同时,研究针对聋哑人的辅助交流系统也受到越来越多的关注;结合视频信息的网上辅助教学系统也有广阔的应用前景。基于其广阔的应用背景,近年来越来越多的目光投向了唇语识别与合成领域的研究。但是唇读技术在走向现实应用的过程中仍还有很多问题要解决,首先是现实环境中嘴唇区域的定位识别问题,唇语识别时的实时性问题,其次,如何准确的识别话者的口形,如何根据口形构建精简准确的标准唇语库也是影响系统识别率的一个重要的方面。本文针对嘴唇图像的口形表示和唇语库的构建方面做了相应的探讨和研究工作。通过对特征提取算法的研究,能够让系统在识别或合成过程中对嘴唇图像中所表示的口形做出准确的判断和表示;同时采用聚类算法,去除原始唇语库中的相似冗余图像,精简了唇语库,降低其存储容量,满足了低数据量存储应用方面的要求。主要的研究内容包括以下几个方面:(1)分析了各种口形表示方法,采用以内嘴唇轮廓曲线表示对应的口形。提出了嘴唇区域提取,边缘提取和曲线拟合相结合的特征提取方案。同时根据图像的口形特征对图像库进行聚类,去除了图像库中相似冗余图像。(2)分析各种颜色空间,采用chromatic颜色空间映射和阀值裁减的方法,有效的从原始图像中提取出嘴唇区域;采用有效的特征点选取策略,边缘检测算法和曲线拟合算法,实现了对嘴唇图像表示的口形的正确有效的提取;采用将轮廓曲线的参数作为口形的特征向量,有效的减少了特征向量的维数,为实现低数据量应用,如网络传输,聚类等,节约了时间和资源。(3)比较分析了各种特征向量情况下各种距离计算的聚类算法。采用Fuzzy C-means和K-means聚类算法对唇语库中图像聚类,去除了原始唇语库的冗余,大大的降低了唇语库的存储量。
其他文献
本文针对XX部机关局域网的安全要求,提出了一套系统、先进和科学合理的网络安全整体解决方案,包括内部网络的安全、远程接入的安全、连接外部网络的安全以及操作系统安全、应用
分布式一致性是指n个处理器组成的分布式系统,其中最多有m个处理器发生故障,要求所有的无故障处理器都能做出相同的决定,并且决定值必须是合理的。区域故障模型是多个局域网中处
互联网的发展为全球范围内实现高效的资源和信息共享提供了方便,同时也对网络安全防护提出了新的挑战。网络入侵检测技术作为一种积极主动的安全防护技术正成为目前网络安全领
不断发生的瓦斯灾害事故带来的是巨大的生命和财产损失,为了让悲剧能够谢幕,我国也在不断地利用计算机等新兴高科技技术来推动瓦斯抽采监测系统的发展。要提高煤矿瓦斯抽采效
基因组重组问题是计算生物学中的常见问题,基因组重组算法对分子生物学中生物进化的研究具有重要意义。早在六十年前,Dobzhansky和Sturtevant发表了一篇重要论文,证明了两种不同
聚类是数据挖掘的重要分支之一,引入模糊理论的模糊聚类分析为现实数据集提供了模糊处理能力,在许多领域被广泛应用。本文在对基于划分的模糊聚类算法中模糊C均值聚类算法及
随着互联网新技术的发展,网络服务和信息交换等应用大规模出现。由于网络数据的异种性和异构性,就急需一套统一的数据表式和数据交换的标准。可扩展标记语言(XML)及时解决了
随着基因组学的不断发展,DNA微阵列技术为生命科学提供新的解决问题的思路与方法。基因表达数据是一般为矩阵形式,分析的是基因发生的改变,基因间的互相关系以及基因活动产生
随着商业银行的飞速发展,身份认证作为信息安全的第一道保障越来越重要,一个最主要的问题就是多个系统身份认证机制的集成化。目前,商业银行各种业务系统相互独立的身份认证存在
随着软件系统需求的不断增长,软件界的问题也越来越多。导致项目失败或者延期、超出预算或品质低劣的问题,被业内人士称之为“软件危机”。在软件项目开发过程中,风险是时时