混响环境中的麦克风阵列语音声源定位与跟踪算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:gs212121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
麦克风阵列已在诸多领域得到广泛应用,包括视频会议、智能机器人、语音增强、语音识别、说话人识别和监控监听系统等。语音声源定位与跟踪在麦克风阵列应用中起着至关重要的作用。然而由于混响、噪声等不利因素的影响,实时的、鲁棒的语音声源定位与跟踪是一项非常困难的工作。本文以在含噪的混响环境中实现实时的、鲁棒的、较高精度的语音声源定位与跟踪为出发点,结合阵列信号处理和语音信号处理的特点,对基于麦克风阵列的语音声源定位与跟踪算法进行了深入地研究。论文的主要研究成果归纳如下:  (1)基于聚类搜索的快速相位变换加权可控响应功率(SRP-PHAT:SteeredResponse Power-Phase Transform)声源定位算法。SRP-PHAT算法因其在混响环境中有较强的鲁棒性而成为目前最为流行的声源定位算法之一。然而巨大的计算量是SRP-PHAT算法被运用于实时定位系统的一个最大障碍。对于一个麦克风阵列系统,每个候选位置都对应于一组达到时间差(TDOA: Time Differences of Arrival),我们将这组TDOA表示为矢量的形式。利用相邻区域的TDOA矢量相似度比较大的特点,本文提出一种基于聚类搜索的快速SRP-PHAT声源定位算法,该算法包括训练和定位两个阶段。在训练阶段,采用聚类的方法将搜索空间划分为若干类别(子区域),属于同一类别的方位角所对应的TDOA矢量具有较高的相似度,训练过程离线完成,将聚类结果存储于查询表中。在定位阶段,采取由粗到细的搜索策略,首先计算并比较各聚类中心的可控响应功率,确定声源所属的类别,然后计算并比较该类别内所有候选位置的可控响应功率,确定声源的具体方位角。仿真实验和真实环境实验的结果均表明,基于聚类搜索的SRP-PHAT声源定位算法能大幅度地减少计算量,并且能基本保持原算法的鲁棒性和定位精度。  (2)基于三线快速搜索的SRP-PHAT算法。为降低SRP-PHAT算法的计算量,提出基于三线快速搜索的SRP-PHAT算法,该算法适用于未知声源处于阵列的远场或近场的情形。基于三线快速搜索的SRP-PHAT算法受启发于柱坐标系下的空间功率谱分布规律,采取由粗到细的搜索策略,包括两个步骤:首先粗略地估计声源的水平方位角并判断声源是位于远场还是近场;然后根据判断结果采取不同的精细搜索方案,确定声源位置的最终估计结果。仿真数据和实际数据的实验结果均表明,本文算法在有效减少计算量的同时具有与原算法相近的定位性能。  (3)基于压缩感知的声源定位算法。SRP-PHAT定位算法在混响环境中有较强的鲁棒性,然而在很恶劣的噪声和混响环境下,SRP-PHAT算法的定位性能急剧恶化。本文提出一种基于压缩感知的声源定位算法。该算法将声源定位问题转化稀疏信号的重构问题,利用房间冲激响应构建字典,将每个位置的房间冲激响应作为区别于其它位置的特征。基于压缩感知的声源定位算法首先将麦克风接收信号转换至频域,采用正交匹配追踪算法从接收信号的低频分量中求得一组扩展的频域声源信号矢量,该矢量中包含了声源的位置信息;然后在频域上整合这些扩展的声源信号矢量使声源的位置信息更突出,获得更为鲁棒的声源位置估计。仿真实验结果表明,基于压缩感知的声源定位算法在强混响、低信噪比的环境中的定位成功率明显高于SRP-PHAT算法的定位成功率。  (4)基于相位差复指数变换的多声源定位算法。在混响环境中实现多声源定位是一项复杂且具有挑战性的工作,为提高多声源定位的性能并且避免针对高频段相位差的去卷绕处理,本文提出了一种基于相位差复指数变换的多声源定位算法。首先,挑选出信噪比较大的频点以提高算法对噪声的鲁棒性,并对这些频点作相位差复指数变换;然后,根据语音信号在时-频域的稀疏特性,将被挑选出的频点聚类到各声源;最后,对各声源包含的频点构建代价函数,最小化代价函数以估计TDOA。本文算法通过迭代来实现。该算法充分利用了高频段的相位信息,无需对高频段相位差进行去卷绕处理。仿真实验结果表明,相比广义硬聚类算法,本文算法的收敛速度更快,定位成功率更高,均方根误差更小。  (5)基于粒子群优化的声源跟踪算法。虽然基于粒子滤波的目标跟踪算法是解决说话人跟踪问题的一类常用方法,但是bootstrap粒子滤波算法存在粒子采样效率不高的缺陷,而且该算法在低信噪比、高混响的恶劣声学环境中的跟踪性能急剧恶化。近年来,粒子群优化算法受到越来越多的关注。本文提出一种基于粒子群优化的声源跟踪算法,可以实现在集中式小型麦克风阵列上的声源跟踪。该算法采用粒子群优化框架,为保持粒子的多样性,当进行新一帧的声源跟踪时,根据声源动态模型将前一帧优化收敛后的个体最优粒子随机地传播到当前帧。在优化过程中,选择SRP-PHAT定位函数作为适应值函数。为了利用相邻帧之间的时间连续性信息,该算法根据先验状态转移概率密度函数为每个粒子分配一个权重,将权重归一化后,对所有粒子的个体最优位置加权求和,得到当前帧的声源方位估计值。仿真数据和实际数据的实验结果均表明,本文算法在处理声源跟踪问题上具有很大的优越性。相比基于粒子滤波的声源跟踪算法,基于粒子群优化的声源跟踪算法具有更好的跟踪精度以及更强的抗混响和抗噪声能力,尤其在低信噪比、强混响的恶劣声学环境中,性能的提升更加显著。
其他文献
专用分组无线通信网不仅要求网络能够自组织,还要能够提供具有QoS保证的多业务通信能力。因此在无线资源非常有限的条件下,如何保证多业务的QoS是一个关键问题。本文针对专用无
伴随移动互联网时代的到来,来自各种无线移动终端的无线网络数据量在爆发式的增长,传统的蜂窝网架构和物理层技术已远远无法达到这种通信容量的需求。这也促进了对包含宏基站和
期刊
视频信息的直观性、确切性、高效性、广泛性等一系列优点使其在通信领域受到极大青睐。但是,视频信息量大又极大的限制了其在Internet和移动网络中的处理与传输。自20世纪90
结合了MIMO和OFDM技术的多频带超宽带系统为短距离、高速无线通信注入了巨大活力。本文首先依据IEEE802.15.3a标准物理层的提议,介绍了MB-OFDM-UWB系统的大致框架,其次提出几种
随着经济的发展和社会的进步,人们对于通信提出了更高的要求。为了满足人们对高速度和高质量通信的要求。MIMO通信系统由于其能够在有限的带宽下,通过在空间上的拓展,能够达到提
期刊
随着电子出版技术发展,经常需要对各种印刷图像原稿进行扫描输入处理。由于印刷图像是用半色调技术产生的,存在着各种网纹信息,所以需要在扫描输入的过程中进行去网处理。半
当今,互联网技术迅猛发展,各行各业都试图与日趋成熟的云计算模式相结合,充分利用云计算的优势。但在教育领域,云计算的应用并不多,普及和发展还需要各方面的努力。如何将云计算与
石油产品的闪点是石油产品在储运中最为重要的安全性指标。随着我国对外开放的高速发展和石油产品贸易的迅猛增加,我国现有的闪点测试仪在速度、精度及测试标准等方面已经远远