基于DSP的说话人定位跟踪系统的设计

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:woxxlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,基于DSP技术的音视频信号处理成为了学术研究中的一个重要课题。其中,音频或视频技术对目标说话人的检测、定位和跟踪日趋成为研究的一个重点。它在视频监控、视频会议,多媒体系统中都有着越来越广泛的应用。但由于单模态视频在进行工作时,可能会因为光线不足导致视频的定位跟踪不准确,或是失效;同样地,单一的音频技术对于目标说话人的定位与跟踪,也可能因为较大的噪声或混响而产生性能的降低。针对出现的这一问题,音视频融合技术应运而生。本文主要研究的是利用一种鲁棒的方法由音视频融合信息对目标说话人进行定位与跟踪,并通过硬件平台进行实现。论文首先对硬件平台及选取进行了介绍,并搭建了带有DM6437处理芯片并基于达芬奇(DaVinci)技术的DSP硬件实验平台,为之后语音和视频信息的处理及融合提供了良好的硬件环境的支持;其次,对音频信号时延估计方法所用模型及算法做了深入的介绍,最终采用一种基于坐标系变换的空间声源定位方法对目标进行音频定位。通过建立一个特定坐标系,将原有坐标系中的任意4个麦克风阵列坐标转换为新坐标中的3个特定点和一个任意点的坐标,并进行声源坐标的计算。此方法与传统的延时估计算法相比,有效的提高了定位的准确度,并且在坐标转换之后使得运算量得到很大程度的简化。之后,介绍卡尔曼滤波器及均值漂移(Mean Shift)算法在视频信息中的应用。实验验证各自方法的优缺点,并提出了使用卡尔曼滤波器结合均值漂移算法对目标进行视频跟踪的方法,且通过实际操作证明该方法的鲁棒性。通过对硬件视频子系统(VPSS)中3个主要寄存器(CCDC、OSD和VENC)及TVP5146寄存器的设置,实现经过芯片DM6437处理并在硬件平台上进行的视频采集与显示的功能。最后,本文利用卡尔曼滤波器融合音频及视频信息,并将程序刻写入硬件开发板,使之能独立运用音视频融合方法完成对目标说话人进行定位与跟踪。其优点在于综合了视觉与听觉信息,降低单模态信息固有存在的不足在目标定位跟踪时产生的误差,使两个模态信息能够彼此互补,从而更加准确、稳定的确定目标说话人在空间的所在位置。
其他文献
本文主要针对LDPC码的校验矩阵构造、译码算法和性能分析及错误平层消除等问题进行了学习和研究。文章采用比对的方法,说明了代数构造的结构化LDPC码与随机构造的LDPC码相比,其
压缩传感理论是近年来比较热门的一种理论,它在信号是稀疏或可压缩的前提下能用远远低于奈奎斯特采样定律要求的采样频率对信号进行采样,且能够保证信号的精确重构。相较于传统
随着计算机技术的发展,基于图像处理的产品表面缺陷检测技术的优势越来越明显。金属表面具有高反光和拉丝特性,所以金属工件表面缺陷的检测一直是非常困难的问题,本文将金属表面
车载自组织网络(Vehicular Ad Hoc Network, VANET)结合了自组织网络、无线网络、蜂窝网络等多种网络技术,由道路上行驶的车辆节点和路边基础设施组成,能支持车辆间和车辆与
在语音通信过程中,由于受到背景噪声和混响的干扰,导致语音的可懂度下降和听感变差。因此在语音通信中,通常需要使用语音增强技术。传统语音增强方法中,基于无监督学习的语音
随着网络和通信技术的逐步发展,无线远程监测系统也得到了长足的发展。为了实现视频远程监测系统的实时性、可靠性和可视性,本文研究了基于3G的视频传输系统监测中心,利用成