基于唇动特征的唇语识别技术

被引量 : 3次 | 上传用户:l398655579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类的语言认知过程是一个多通道的感知过程。除声音信息通道外,唇动视觉信息可以作为一种语音理解源。视觉语言具有许多潜在的应用,因此通过机器的自动唇语识别即唇语技术近年来成为一个备受关注的研究领域。作为人机交互的一部分,对唇读规律及其识别的研究具有重要的理论意义和实用价值,它能够有效地改善语音、手语等其它信道的识别率。本人对国内外现有的有关唇读识别技术和方法进行了研究,在比较现有唇读系统所采用的方法基础之上,针对计算机唇读系统中唇部检测、唇读特征提取和唇语识别等关键技术,提出了改进的算法。首先利用肤色模型和人脸的几何特征检测出人脸,进一步提出一个多级结构的嘴唇区域检测算法检测嘴唇,也就是实现对嘴唇的粗定位到精定位。该方法是在检测出人脸后,通过Fisher变换增强嘴唇区域,然后利用Otsu(最大类间方差法)二值化图像完成粗定位,再结合YIQ唇色模型进一步验证后实现唇部精定位。利用该方法得到的分割结果初始化轮廓的参数,有效提高了轮廓定位的速度和准确度。在嘴唇的跟踪和特征提取方面,提出基于改进的snake模型的嘴唇轮廓提取的方法。此方法首先自动生成snake的初始模型,然后在GVF—snake的基础上重新设计了snake的外部能量函数,利用色彩差分运算提取有意义区域的边缘梯度,对GVF向量场进行了归一化处理并改进了平滑因子。该改进的算法大大提高了嘴唇轮廓提取的准确度。然后采用了光流法和snake模型结合的方法对序列图像进行跟踪,能较好地解决因动态图像帧间误差积累而带来的跟踪错误的问题。为提取嘴唇的运动特征,本文提出基于帧间特征点运动矢量的唇动特征提取方法,提取了有效的嘴唇特征点并研究了图像序列相邻帧之间的嘴唇运动的规律,获得包含大量口型动态信息的有效特征。在唇读识别方面,运用了BP神经网络的唇读识别方法。采用附加动量法和自适应学习速率法在样本集上训练BP网络,该训练方法可避免网络陷入局部最小的问题,同时加快BP网络的收敛速度。在唇动特征的支持下,识别算法在对说话人的发音口型识别中,均取得了满意的结果。测试结果表明本文提出基于唇动特征的唇语识别算法是有效的,且能够一定程度地适应光照、唇色等条件变化,充分考虑了发音时口型轮廓的变化特征。基本能够实现在视频环境下,说话人实时发音,计算机能同时在允许的一定时间延迟内识别其口型类别。
其他文献
<正>主产于印度的娑罗双树,是著名的佛门"圣树"。此树原名"娑罗树",为龙脑香料的珍贵树种。后来树名为何又加了"双"字?相传释迦牟尼涅槃(圆寂)于两棵娑罗树间,"两"与"双"同一
企业文化的内涵及其基本内容贾春峰(中共中央宣传部研究员)企业文化的涵义是什么?企业文化的内容有哪些?对此,国内外学者有众多不同的说法,至今还没有一种能为多数学者所接受。本文
随着现在的制造企业对预算工作的重视,对企业内部的各基层部门的预算管理工作要求也越来越严格,本文结合作者自身工作经验,探讨了制造企业基层部门怎样配合预算归口管理部门
作为经济学学科的一个分支,财政学的发展经历了从传统到现代的转变。纵观财政学发展历史,可以发现,财政理论和财政实践的交互作用共同推动着财政学的发展。基于对财政学发展
本文运用土地法规及有关政策,探讨当前农村宅基地使用和管理问题的重要性,并找到了解决问题的途径与对策,以期为同仁起到抛砖引玉的作用,并为土地管理工作者提供参考,旨在使
济宁路在元代是景教重镇,这里长期存在着景教寺院和教徒群体。作为蒙古贵族弘吉剌氏的家臣,按檀不花家族至少三代先后在济宁路各地为官,留了不少碑刻材料。这些碑刻提供了元
目的探讨在有机磷中毒患者并发呼吸衰竭治疗中全血胆碱酯酶含量和机械通气时间、阿托品用量的关系。方法对我院收治的有机磷农药中毒并发呼吸衰竭47例患者的治疗过程进行监测
应用定向渗流理论建立了能表征岩石微观孔隙结构特征及润湿性特征的随机网络模型,从理论上模拟讨论了剩余油的微观组成特征及润湿性对微观剩余油分布的影响,得到了与微观实验一
白先勇是台湾文坛享有盛誉的作家,他的作品选材大胆、率性,敢于展现另类情欲,把笔触伸向一个特殊的社会群体——同性恋者,关注同性恋者的生存状态及其心路历程。白先勇以人性
在美国众多的伟大作家中,海明威以其独特的"冰山"风格而著称。在他所有的作品中,《老人与海》最能体现他这种独特的写作风格。本文试通过深入剖析《老人与海》,分析海明威"冰