论文部分内容阅读
智能视频监控是计算机视觉技术中最热门的应用领域之一,在金融、交通、城市安防以及军事等领域有着广泛的应用。由于摄像头存在监控“死角”和目标被障碍物遮挡等缺陷,故一些学者提出将音频信号作为视频信号的补充加入到监控系统中,起到了很好的辅助作用。相关理论算法和实用系统的研发具有较高的理论价值和广泛的应用前景。论文对现有的麦克风阵列声源定位和视频目标监测方法进行分析和比较,在此基础上,重点研究了基于时延估计的声源定位方法;基于实验室开发的运动目标检测、识别与跟踪实验平台,建立了一个结合麦克风阵列的视频目标监测实验系统。该系统适用于没有专人值守的室内场景,并取得了较好的实验测试效果。本文主要工作包括以下几点:(1)介绍了理想条件、噪声和混响条件下的麦克风阵列信号模型。深入研究了几种不同的时间延迟估计方法,提出了一种改进的互功率谱相位时延估计算法,该算法能有效地剔除不合理的时延估计结果,提高时延估计准确率。并通过仿真实验和真实环境实验验证了改进算法的有效性。(2)描述了阵列信号的远场模型和近场模型,介绍了几种声源定位方法的基本原理和实现步骤,着重探讨了角度距离定位法和球型插值法,在此基础上进行了移动声源定位实验,并在实验中加入麦克风校准工作,更为准确地估计声源位置信息。(3)对三种常用的视频目标检测方法进行了研究,介绍和分析了相关视频处理算法的原理和算法步骤。运用了形态学操作来完善目标的形状和轮廓,讨论了常见的几种特征,引入了适应于本文系统的高四分之一特征量,使用支持向量机对目标进行了训练和分类,对运动目标有着较好的识别效果。讨论了运动目标跟踪方法中的基于均值漂移的跟踪方法,并在跟踪过程中加入边缘调整功能,使得运动目标一直处于视频画面内。(4)搭建了一种结合音、视频信号的监控系统,适用于夜晚无人值守的室内监控。在系统运行过程中,当采集到声音信号时,便用本文改进的互功率谱时延估计算法和角度距离定位法对声音信号定位,控制球机转向此方位角。然后,系统对球机拍摄到的视频数据进行处理与分析,分别判断是否有运动目标、运动目标是否是人类,从而判断是否有异常情况出现,并启动相应的警报,为安防人员示警。