论文部分内容阅读
说话人定位与跟踪是人机交互研究中的重要课题,在视频会议系统、多媒体系统以及机器人等领域有着广泛的应用。通常,基于计算机视觉的人脸或人体跟踪方法与基于计算机听觉的声源定位方法都可作为解决说话人定位与跟踪问题的基本手段。然而,这些单模态的定位与跟踪方法难以适应复杂的动态环境,人脸跟踪方法容易受到视频遮挡以及光照、姿态变化等因素的影响,而背景噪声与房间混响则制约着声源定位方法的性能。因此,采用信息融合技术对说话人的音视频双模态信息进行处理,则成为提高说话人定位与跟踪系统精度与鲁棒性的重要手段。音视频联合说话人定位与跟踪是计算机听觉与计算机视觉相互融合的一个重要方向,其目的是综合利用说话人的音频与视频信息来估计说话人的空间位置。本文对音视频联合说话人定位与跟踪问题进行了深入研究,取得的研究成果如下:(1)将多传感器信息融合技术用于说话人定位与跟踪问题,提出了一种基于动态贝叶斯网络的音视频联合说话人定位与跟踪方法。在动态贝叶斯网络框架中,该方法分别采用麦克风阵列声源定位、基于肤色的人脸跟踪以及音视频互信息最大化三种感知方式获取与说话人位置相关的测量信息;然后采用粒子滤波对这些信息进行融合,通过贝叶斯推理实现说话人的有效跟踪;并运用信息熵理论对三种感知方式进行动态管理,以提高跟踪系统的实时性。(2)将加权子空间拟合算法应用于麦克风阵列声源定位问题,提出一种宽带加权子空间拟合声源定位方法。该方法在贝叶斯估计理论框架下,结合语音信号的宽带特性,构造了一个适用于语音信号的目标函数,采用粒子滤波对该目标函数进行全局优化,从而有效地确定声源的空间位置。(3)综合考虑语音建立信号与说话人运动模型在抑制房间混响中的作用,提出一种基于分层采样粒子滤波的麦克风阵列声源跟踪方法。在实际的中小型房间环境中,由于墙壁、地面、桌面的反射作用,麦克风阵列接收到的语音信号中通常含有混响成分,从而影响声源定位与跟踪系统的性能。基于分层采样粒子滤波的声源跟踪方法从语音信号中提取出无混响的建立信号,将其作为观测信息来计算麦克风阵列波束形成器的输出能量,同时考虑语音信号不同频率成分在声源定位中的作用,采用分层采样方法提高粒子的采样效率,从而增强跟踪系统的实时性。(4)考虑到说话人唇动信息对语音感知的增强作用,将可视语音引入语音提取问题,提出了一种基于粒子滤波的双模态语音提取方法。双模态语音提取方法在粒子滤波框架下,根据音视频互信息与语音峭度来确定分离矩阵,从而实现语音信号的有序提取。