提高唇读理解的关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kaji2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇读为人机自然交互和生物特征识别提供了一种新的途径,本文主要针对单独视觉通道唇读,重点研究为提高唇读理解的关键技术中的特征提取和语言模型问题。在唇区检测与定位方面简要介绍了自适应色度滤波模型,该模型通过对人脸区域的实时分析,自适应的找到唇色与肤色的聚类范围,从而修正唇色模型,提高了系统的鲁棒性和实用性。同时介绍了基于色度空间的Mean-Shift聚类算法,取得了满意的结果。特征提取在唇读中具有核心地位,目标就是得到低维、低冗余度且具代表意义的特征向量。本文主要研究基于像素的特征提取方法,提出一个级联的特征提取流程,首先对图像采用相应的变换,然后对变换结果降维,最后进行特征归一化。基于对几种变换方法的比较与分析,提出利用KL对DCT和Gabor小波变换结果降维的DCT-KL和Gabor-KL方法,最优识别率分别能达到77.4%和77.9%,与直接选择变换系数的方法相比识别率提高了约10%。在唇读训练和识别方面,利用半连续HMM模型对数据库中200个句子包括96个音进行训练和识别。对模型在唇读识别应用中的一些具体问题进行了探讨,建立了适合唇读的HMM模型。语言模型作为唇读的后处理模块,将直接影响唇读的识别率,本文提出统计语言模型在唇读中的两个应用,并给出相应的数学模型和算法。一是辅助唇读识别,利用HMM识别概率结合语言模型的统计概率进行识别,拼音识别率提高5%达到82.4%,句子识别率提高约20%达到51%;二是进行音字转换,解决同音字的问题,在拼音识别率82.4%的基础上,汉字识别率能够达到70%。
其他文献
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。在这浩瀚无边的数据海洋中潜藏着大量重要的、有趣的信息。
随着网络的快速发展,网络学习资源越来越丰富,人们开始通过互联网学习感兴趣的知识,代替传统的学习模式。虽然网络学习资源丰富,但是由于学习网站大量存在,且相互之间对于知识层次
随着移动通信的迅速发展,人们不再满足于仅有的文本、声音、图像,而是希望得到声、文、图及视频流媒体信息。而第三代移动通信网络(3G)不仅继承了时分多址接入(TDMA)技术,还
现在生物信息学已经成为了一门飞速发展的学科,前期研究人员注重对局部数据的处理与分析,随着这种局部数据的增加,人们把注意力移向了更高的层次,希望从系统的角度来研究分析
随着信息技术的迅速发展,特别是Internet与Intranet应用的飞速发展,信息共享、信息交换通过开放式网络形成一个方便快捷的信息传播平台,为计算机的普及提供了有利的条件。同
云计算是目前商业与科研方面的研究热点,Hadoop作为Google云平台的开源实现,为广大研究人员提供了研究基础。在Hadoop架构中,MapReduce调度算法决定了作业调度的先后顺序与作
在互联网上,每台计算机都存在或多或少的安全问题。安全问题不被重视,必然会导致严重后果,造成系统被破坏、数据丢失、机密信息被盗等各种直接和间接经济损失。本文正是从网
随着计算机网络和通信技术的迅速发展以及网络应用的飞速普及,网络用户对网络服务提出的要求也与时俱进。即时通讯作为众多网络服务中最成功的网络服务之一,它已经从过去纯粹的
图是一种通用的数据结构,相比路径和树结构来说,图能表达更多复杂的结构信息,如:分子结构、社交网络关系、图像。近年来,随着图数据在各个应用领域内被广泛使用,其数据量成指
随着嵌入式技术的广泛发展与应用,嵌入式系统的设计需求越来越多样化,这包括实时性、专用性、低功耗技术等;另一方面,对嵌入式系统的功能要求也越来越全面。但是嵌入式系统的一个