基于稀疏表示的人类口型识别

来源 :南昌大学 | 被引量 : 0次 | 上传用户:yibola2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能机器人的听觉系统很难像人的听觉系统那样可以轻而易举地从复杂环境产生的混合语音信号中感知某个人的语音并判断语音源个数。为了辅助智能机器人语音系统更好地分离混合语音信号,本文将引入视觉信号,即口型图像,来确定语音源个数。由此提出了基于稀疏表示的口型识别算法,通过检测说话人口型的开闭状态来判断该说话人是否构成语音源。本文在稀疏表示分类算法的基础上,分别从有识别力字典训练和样本优化两个方面进行研究。一方面,采用LC-KSVD算法通过带类标的训练集同步训练具有识别力的过完备冗余字典和最优分类器。在LC-KSVD算法中惩罚项不但包含了象征字典表征力的重构误差项,而且还加入了稀疏编码误差项和分类误差项以提高字典识别力,克服了K-SVD算法只注重字典表征力而忽略了识别力的不足,字典和分离器分开训练等缺点。另一方面,由于口型样本中存在口型区域以外的冗余信息且嘴巴姿态各异等因素影响了分类器对口型的识别,所以定义了一个由16个嘴唇轮廓特征点描述的标准口型模型,采用图像卷绕算法将口型样本映射到该标准模型中,以优化口型样本。将优化后的训练集样本直接堆叠或者经过LC-KSVD或K-SVD算法训练等方式获得过完备字典。在这两个方面的研究中,为了克服因字典过完备性而导致诸如OMP等贪婪算法可能无法收敛的缺点,本文在稀疏编码阶段均采用同伦算法求解稀疏系数。在此基础上,分别提出了基于LC-KSVD和同伦算法(Homotopy)的SRC人类口型识别算法以及基于图像卷绕(Image warping)和同伦算法的SRC人类口型识别算法。通过实验仿真,对比SVM,k-NN,MD等传统识别算法以验证本文算法的有效性。
其他文献
本文首先总结了人脸技术的研究动机和应用,介绍了人脸识别技术的概念和主要研究方向,然后对人脸识别技术做了比较详细的全面综述,重点介绍了几种典型的人脸识别方法:特征脸方法、
选取2008-2009年我中心康复科收治的21例小头畸形患儿,进行临床资料回顾分析及随访研究。1临床资料1.1诊断标准头围测量,数值低于同年龄同性别组平均值2个标准差以上。评价参
随着无线通信技术的飞速发展,人们越来越追求超高传输速率的移动通信网络。MIMO技术运用时间分集和空间分集提高了系统容量,改善了无线通信链路的可靠性。但是由于天线设置的局