基于音视频融合的说话人跟踪方法的研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:gjj19901005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年随着科学技术不断发展,目标跟踪技术越来越受到人们的重视并被广泛的应用在视频会议、智能机器人等领域,它已经成为了当代学者们研究的重要课题。传统的目标跟踪只是利用单一类型传感器采集到的信息来完成跟踪,而单一模态的信息会受一些因素的影响从而导致跟踪结果的准确性和系统的鲁棒性大幅下降,例如环境噪声、遮挡物反射等因素会对声源跟踪系统产生影响,视频跟踪中目标运动姿态的改变、目标遮挡等影响因素也会干扰其跟踪的效果,因此本文对以音频和视频为代表的多模态数据进行融合处理来提高对说话人跟踪的准确性。本文提出了将通过麦克风阵列得到的音频信息与摄像头得到的视频信息在粒子滤波的框架下进行融合,利用两种信息源的各自优点来进行互补,提高了说话人跟踪结果的准确性。为了能够从整体上提高通过融合音视频信息得到的跟踪结果的准确性,本文对传统的广义互相关算法和粒子滤波算法进行了改进,以获得更精确的时延结果和视频位置信息。首先,获取音频信息的方法采用基于到达时间差(TDOA)的方法,其中时延结果的估计是整个跟踪方法的结果是否准确的关键,然而传统的广义互相关时延估计算法在低信噪比和混响存在的情况下时延结果估计的性能开始下降,针对这一问题本文提出了一种基于二次相关的广义互相关时延估计的改进算法。该方法首先对接收到的信号进行滤波处理,再将二次相关算法嵌入到广义互相关算法当中,并且对加权函数进行改进。经过实验表明,在噪声和混响同时存在的环境下,改进算法对时延的估计性能有明显的优势。其次,在视频目标跟踪中使用粒子滤波方法,它适合跟踪环境比较复杂的情况,但是存在着运算量大和有粒子多样性退化的问题。均值漂移算法可以通过反复迭代来改变当前点的位置使其移动到概率密度函数的最大值处,所以本文将均值漂移嵌入到粒子滤波中,来提高视频跟踪结果的准确率以及运行效率,并在建立模型时将概率较小的特征值去掉以减小非目标像素对跟踪的干扰,最后采用随机线性重采样方法解决粒子退化问题。经过多次实验得出,改进算法的结果准确率和运行效率方面都比传统算法有明显提高。最后,将通过改进算法得到的更加准确的音频、视频信息在粒子滤波框架下进行融合来对说话人进行跟踪,通过多次实验可以看出本文提出的新的基于音视频融合的说话人跟踪方法在环境复杂的情况下有着很好的跟踪效果。
其他文献
漓江作为桂林旅游的一张名片,吸引着国内外游客。但是漓江旅游在近年来的发展中,出现了游览方式单一、旅游承载力不足和利益分配不合理等一系列问题。本文以此为背景,在全域
目的 心内直视手术中良好的心肌保护是提高手术成功率,减少严重并发症的关键,特别是巨大心脏的心肌保护现在仍是医学探索的重点。方法 我院2005年1-12月来共完成巨大心脏手术12
介绍了狮子坪水电站中、下平段压力钢管整节凑合安装质量过程控制,重点对现场测量控制、焊接等方面的施工工艺进行了探讨,在测量控制以及钢管制造精度提高方面具有一定的创新
随着工业发展,能源危机和环境污染问题越来越突出,化石燃料的大量使用导致(CO2排放量急剧增加,因此如何高效转化CO2实现碳资源的循环利用成为当前研究的热点。CO2甲烷化技术
由可再生的生物乙醇经过一步催化转化直接制备丁醇燃料或化学品已经成为近年来催化研究领域的热点课题之一。虽然目前使用的某些均相贵金属催化剂和多相金属催化剂在乙醇制丁
偏头痛虽为临床常见病、多发病,但缠绵日久,顽固难愈。笔者自1999年以来应用自拟方消风活血汤治疗68例,疗效满意,现报告如下:
蓝莓是一种小浆果,具有极高的营养价值,近年来,蓝莓的深加工越来越被人们所关注。本文以蓝莓为原料,分别酿造干型、半干型、甜型蓝莓酒。在发酵过程中,跟踪测定总糖,酒精,总
为了探讨风力机翼型的气动特性,利用计算流体力学软件对风力机中常用的NACA63—215翼型进行了数值分析,得出了NACA63-215翼型的升力系数、阻力系数及升阻比随来流攻角的变化关
1资料与方法 1.1临床资料 本组256例中,男性患者67例,女性患者189例,年龄26-56岁。桡骨茎突部狭窄性腱鞘炎95例(37.1%),指屈肌腱狭窄性腱鞘炎(弹响指)161例(62.9%)。统计病例均为经理疗或利