论文部分内容阅读
随着科学技术的快速发展,基于DSP技术的音视频信号处理成为了学术研究中的一个重要课题。其中,音频或视频技术对目标说话人的检测、定位和跟踪日趋成为研究的一个重点。它在视频监控、视频会议,多媒体系统中都有着越来越广泛的应用。但由于单模态视频在进行工作时,可能会因为光线不足导致视频的定位跟踪不准确,或是失效;同样地,单一的音频技术对于目标说话人的定位与跟踪,也可能因为较大的噪声或混响而产生性能的降低。针对出现的这一问题,音视频融合技术应运而生。本文主要研究的是利用一种鲁棒的方法由音视频融合信息对目标说话人进行定位与跟踪,并通过硬件平台进行实现。论文首先对硬件平台及选取进行了介绍,并搭建了带有DM6437处理芯片并基于达芬奇(DaVinci)技术的DSP硬件实验平台,为之后语音和视频信息的处理及融合提供了良好的硬件环境的支持;其次,对音频信号时延估计方法所用模型及算法做了深入的介绍,最终采用一种基于坐标系变换的空间声源定位方法对目标进行音频定位。通过建立一个特定坐标系,将原有坐标系中的任意4个麦克风阵列坐标转换为新坐标中的3个特定点和一个任意点的坐标,并进行声源坐标的计算。此方法与传统的延时估计算法相比,有效的提高了定位的准确度,并且在坐标转换之后使得运算量得到很大程度的简化。之后,介绍卡尔曼滤波器及均值漂移(Mean Shift)算法在视频信息中的应用。实验验证各自方法的优缺点,并提出了使用卡尔曼滤波器结合均值漂移算法对目标进行视频跟踪的方法,且通过实际操作证明该方法的鲁棒性。通过对硬件视频子系统(VPSS)中3个主要寄存器(CCDC、OSD和VENC)及TVP5146寄存器的设置,实现经过芯片DM6437处理并在硬件平台上进行的视频采集与显示的功能。最后,本文利用卡尔曼滤波器融合音频及视频信息,并将程序刻写入硬件开发板,使之能独立运用音视频融合方法完成对目标说话人进行定位与跟踪。其优点在于综合了视觉与听觉信息,降低单模态信息固有存在的不足在目标定位跟踪时产生的误差,使两个模态信息能够彼此互补,从而更加准确、稳定的确定目标说话人在空间的所在位置。