基于句子级的唇语识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hua6952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对计算机唇读的研究在语音识别、人机智能接口、多媒体系统以及人脸数据压缩等领域具有重要的理论意义和实用价值.该文对计算机唇读系统中的几个问题唇读研究的预处理、唇动定位与特征提取、唇读识别和唇读融合进行了研究和实践,具体包括以下内容:根据课题要求建立一个包含所有声韵母的200个常用汉语句子,作为唇读识别系统的研究数据库.建立了适合进行中国唇读研究的双模态语料库CAVDatabase Ⅱ.在唇的检测方面,通过对人脸区域的实时分析,自适应的找到唇色与肤色的聚类范围,从而修正唇色模型,利用该模型实现了实时唇动检测与跟踪.唇色自适应模型使得系统可以对不同的唇色、光照和摄像机色调等客观条件进行自适应调整,提高了系统在自然条件下的鲁棒性和实用性.在唇的定位与特征提取方面,采用了自适应色度过滤模型,使唇的定位更加准确鲁棒性更强.在其基础上运用主成分分析(PCA)提取了唇动的图像特征,使用可变模板技术提取形状特征.通过两部分特征的有效结合,利用直接挑选和回归建模的方法去掉特征之间的冗余性,各取所长,提高了特征对环境的鲁棒性.在唇读识别方面,利用半连续HMM模型实现了对200个句子(包含96个口型序列图像)的训练和识别.对模型在唇读识别应用中的一些具体问题进行了探讨,建立了适合唇读的HMM模型.最终取得了特定人57.3﹪,非特定人22.4﹪的识别率.在唇读融合方面,提出了带先验知识的DS理论,对特定人和非特定人的语音可提高识别率10﹪-30﹪.
其他文献
随着数据库技术的飞速发展,数据库不仅在数量上快速增长,规模也越来越大。在许多现实的数据库中,数据常常与时间有关。按时间顺序取得的一系列观测值被称为时间序列数据。时间序
Web服务是以XML为核心的新一代Internet技术的重要组成部分.UDDI(Universal Description,Discovery and Intergration)作为Web服务中的核心技术之一,为描述服务、发现商业机
搜索与优化问题是一类具有非常古老的研究历史和非常广泛的应用,同时非常难于求解的问题。在机械、化工、管理、计算机、经济、生物、军事等领域中存在大量的搜索与优化问题
因特网雏形ARPANET的时代发展至今,网络技术和网络应用的发展突飞猛进,安全方面的威胁逐渐成为网络技术面临的重大挑战,网络安全也成为网络技术研究领域最具挑战性和现实意义的
随着网络的飞速发展,传统的服务器体系结构愈来愈暴露其结构弱点,集群服务器得以广泛的应用.因此,该文围绕如何构建一个基于Linux的服务器集群,详细的分析了服务器集群的一些
随着装备制造领域工艺技术的发展和市场竞争的加剧,传统意义上的机床越来越不能满足人们对产品加工效率和精度的要求,数控机床的出现极大的提高了工业制造业的生产力。为了满
WWW是一个巨大的信息空间和极具价值的信息源,其容量在持续飞速增长.Internet是一个具有开放性、动态性和异构性的全球分布式网络,资源分布很分散,且没有统一的管理和结构,因
随着软件复杂度的提高,软件测试在软件项目中起到的作用日益凸显。传统的软件测试方法和软件测试设计策略在实践中都存在难以克服的缺陷,这些缺陷会直接影响到测试工作的准确
随着信息化的不断深入,计算机网络正在改变着人们的现代生活.尤其是Internet,它已经向人们提供了各种各样的服务,并且正在不断的出现新的服务来满足人们新的应用需求.当人们
Internet已成为一个重要的和无处不在的基础设施,人们对网络性能、服务内容和安全性的期望不断提高.但是"尽力而为"服务仍是目前Internet中主要的一种服务类别,所有分组在网