音视频联合说话人定位与跟踪方法研究

来源 :大连理工大学 | 被引量 : 30次 | 上传用户:ooo2005net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人定位与跟踪是人机交互研究中的重要课题,在视频会议系统、多媒体系统以及机器人等领域有着广泛的应用。通常,基于计算机视觉的人脸或人体跟踪方法与基于计算机听觉的声源定位方法都可作为解决说话人定位与跟踪问题的基本手段。然而,这些单模态的定位与跟踪方法难以适应复杂的动态环境,人脸跟踪方法容易受到视频遮挡以及光照、姿态变化等因素的影响,而背景噪声与房间混响则制约着声源定位方法的性能。因此,采用信息融合技术对说话人的音视频双模态信息进行处理,则成为提高说话人定位与跟踪系统精度与鲁棒性的重要手段。音视频联合说话人定位与跟踪是计算机听觉与计算机视觉相互融合的一个重要方向,其目的是综合利用说话人的音频与视频信息来估计说话人的空间位置。本文对音视频联合说话人定位与跟踪问题进行了深入研究,取得的研究成果如下:(1)将多传感器信息融合技术用于说话人定位与跟踪问题,提出了一种基于动态贝叶斯网络的音视频联合说话人定位与跟踪方法。在动态贝叶斯网络框架中,该方法分别采用麦克风阵列声源定位、基于肤色的人脸跟踪以及音视频互信息最大化三种感知方式获取与说话人位置相关的测量信息;然后采用粒子滤波对这些信息进行融合,通过贝叶斯推理实现说话人的有效跟踪;并运用信息熵理论对三种感知方式进行动态管理,以提高跟踪系统的实时性。(2)将加权子空间拟合算法应用于麦克风阵列声源定位问题,提出一种宽带加权子空间拟合声源定位方法。该方法在贝叶斯估计理论框架下,结合语音信号的宽带特性,构造了一个适用于语音信号的目标函数,采用粒子滤波对该目标函数进行全局优化,从而有效地确定声源的空间位置。(3)综合考虑语音建立信号与说话人运动模型在抑制房间混响中的作用,提出一种基于分层采样粒子滤波的麦克风阵列声源跟踪方法。在实际的中小型房间环境中,由于墙壁、地面、桌面的反射作用,麦克风阵列接收到的语音信号中通常含有混响成分,从而影响声源定位与跟踪系统的性能。基于分层采样粒子滤波的声源跟踪方法从语音信号中提取出无混响的建立信号,将其作为观测信息来计算麦克风阵列波束形成器的输出能量,同时考虑语音信号不同频率成分在声源定位中的作用,采用分层采样方法提高粒子的采样效率,从而增强跟踪系统的实时性。(4)考虑到说话人唇动信息对语音感知的增强作用,将可视语音引入语音提取问题,提出了一种基于粒子滤波的双模态语音提取方法。双模态语音提取方法在粒子滤波框架下,根据音视频互信息与语音峭度来确定分离矩阵,从而实现语音信号的有序提取。
其他文献
随着我国经济的快速发展,我国城市化水平也在不断提高,与此同时,对于城市基础设施的要求也越来越高.作为城市基础设施中非常重要的一项,做好市政热力管道的建设对于保证居民
市场环境瞬息万变,竞争日趋激烈,企业面临的风险因素也越来越复杂,其中对企业影响最大的就是财务风险。如何有效地回避财务风险、降低风险损失就成了企业财务部门的一项重要
当前中国快捷酒店发展迅速,各酒店组织架构简单、宾客关系管理制度不一、宾客关系管理人员素质参差不齐成为快捷酒店宾客关系管理存在的几大问题。本文从建立完善的行业标准
自社会主义在中国建立以来,"共产主义"经历着由中国人的精神信仰到现实探索的转变。但是,在共产主义的现实探索中,我们不自觉地使其融入到民族复兴的历史使命之中,共产主义伟
本文论述了新常态下我国农村金融发展存在的问题,提出农村金融创新发展方向与对策。
行政领导者通过非权力影响力实现对被领导者的有效管理,需找准并密切把握相关要素。本文试图构建行政领导者非权力影响力与需求、利益、情感、沟通四大相关要素的影响模型,阐
<正> 日前,惠普公司下属部门Veri-Fone在京宣布推出互联网支付方案ElectronicPayment 2000。为适应当前互联网上迅速扩展的电子商务,Electronic Payment 2000采用了为实现物
<正>随着世界工业经济的发展、人口的剧增、人类欲望的无限上升和生产生活方式的无节制,世界气候面临越来越严重的问题,二氧化碳排放量愈来愈大,地球臭氧层正遭受前所未有的
声光电磁是信息的三种载体,微弱语音的获取和理解是声信号处理研究重点之一。在户外环境,伴随几何衰减,远场语音信号面临各种各样的干扰和噪声影响。因此,本文围绕如何减小噪
以α-甲基丙烯酸和4-乙烯基吡啶为二元功能单体,乙二醇二甲基丙烯酸酯为交联剂,偶氮二异丁腈为引发剂,氯仿为致孔剂用本体聚合法合成了甲磺隆分子印迹三元共聚物,并用固相萃取方