论文部分内容阅读
近几年随着科学技术不断发展,目标跟踪技术越来越受到人们的重视并被广泛的应用在视频会议、智能机器人等领域,它已经成为了当代学者们研究的重要课题。传统的目标跟踪只是利用单一类型传感器采集到的信息来完成跟踪,而单一模态的信息会受一些因素的影响从而导致跟踪结果的准确性和系统的鲁棒性大幅下降,例如环境噪声、遮挡物反射等因素会对声源跟踪系统产生影响,视频跟踪中目标运动姿态的改变、目标遮挡等影响因素也会干扰其跟踪的效果,因此本文对以音频和视频为代表的多模态数据进行融合处理来提高对说话人跟踪的准确性。本文提出了将通过麦克风阵列得到的音频信息与摄像头得到的视频信息在粒子滤波的框架下进行融合,利用两种信息源的各自优点来进行互补,提高了说话人跟踪结果的准确性。为了能够从整体上提高通过融合音视频信息得到的跟踪结果的准确性,本文对传统的广义互相关算法和粒子滤波算法进行了改进,以获得更精确的时延结果和视频位置信息。首先,获取音频信息的方法采用基于到达时间差(TDOA)的方法,其中时延结果的估计是整个跟踪方法的结果是否准确的关键,然而传统的广义互相关时延估计算法在低信噪比和混响存在的情况下时延结果估计的性能开始下降,针对这一问题本文提出了一种基于二次相关的广义互相关时延估计的改进算法。该方法首先对接收到的信号进行滤波处理,再将二次相关算法嵌入到广义互相关算法当中,并且对加权函数进行改进。经过实验表明,在噪声和混响同时存在的环境下,改进算法对时延的估计性能有明显的优势。其次,在视频目标跟踪中使用粒子滤波方法,它适合跟踪环境比较复杂的情况,但是存在着运算量大和有粒子多样性退化的问题。均值漂移算法可以通过反复迭代来改变当前点的位置使其移动到概率密度函数的最大值处,所以本文将均值漂移嵌入到粒子滤波中,来提高视频跟踪结果的准确率以及运行效率,并在建立模型时将概率较小的特征值去掉以减小非目标像素对跟踪的干扰,最后采用随机线性重采样方法解决粒子退化问题。经过多次实验得出,改进算法的结果准确率和运行效率方面都比传统算法有明显提高。最后,将通过改进算法得到的更加准确的音频、视频信息在粒子滤波框架下进行融合来对说话人进行跟踪,通过多次实验可以看出本文提出的新的基于音视频融合的说话人跟踪方法在环境复杂的情况下有着很好的跟踪效果。