论文部分内容阅读
智能机器人的听觉系统很难像人的听觉系统那样可以轻而易举地从复杂环境产生的混合语音信号中感知某个人的语音并判断语音源个数。为了辅助智能机器人语音系统更好地分离混合语音信号,本文将引入视觉信号,即口型图像,来确定语音源个数。由此提出了基于稀疏表示的口型识别算法,通过检测说话人口型的开闭状态来判断该说话人是否构成语音源。本文在稀疏表示分类算法的基础上,分别从有识别力字典训练和样本优化两个方面进行研究。一方面,采用LC-KSVD算法通过带类标的训练集同步训练具有识别力的过完备冗余字典和最优分类器。在LC-KSVD算法中惩罚项不但包含了象征字典表征力的重构误差项,而且还加入了稀疏编码误差项和分类误差项以提高字典识别力,克服了K-SVD算法只注重字典表征力而忽略了识别力的不足,字典和分离器分开训练等缺点。另一方面,由于口型样本中存在口型区域以外的冗余信息且嘴巴姿态各异等因素影响了分类器对口型的识别,所以定义了一个由16个嘴唇轮廓特征点描述的标准口型模型,采用图像卷绕算法将口型样本映射到该标准模型中,以优化口型样本。将优化后的训练集样本直接堆叠或者经过LC-KSVD或K-SVD算法训练等方式获得过完备字典。在这两个方面的研究中,为了克服因字典过完备性而导致诸如OMP等贪婪算法可能无法收敛的缺点,本文在稀疏编码阶段均采用同伦算法求解稀疏系数。在此基础上,分别提出了基于LC-KSVD和同伦算法(Homotopy)的SRC人类口型识别算法以及基于图像卷绕(Image warping)和同伦算法的SRC人类口型识别算法。通过实验仿真,对比SVM,k-NN,MD等传统识别算法以验证本文算法的有效性。