论文部分内容阅读
随着科学技术的不断进步,人们对人机交互的需求日益增加,人机交互技术无论是在科学研究领域还是市场应用领域都得到了蓬勃发展。人机交互的交流方式也从必须具备相应的专业素质进行语言编程控制逐步发展到了普通人也能进行的语音控制。而人机交互能进行语音控制的基础是计算机能准确的接收到控制者发出的语音信号,这就要求计算机首先对目标声源进行声源定位。目前,基于麦克风阵列的声源定位算法研究已成为了阵列信号技术领域的一个新兴热点。然而,国内对该类算法的研究起步较晚、发展水平有限且能应用于市场的产品还很少,针对这种情况,本课题做了如下研究工作:1、在系统研究相位转换-广义互相关(PHAT-GCC, Phase Transform-Generalized Cross Correlation)时延估计算法基本原理并进一步分析分析其结构特点和适用范围的基础上,结合设计要求和实际条件,提出了改进的PHAT-GCC时延估计算法。改进的PHAT-GCC时延估计算法在结构上增加了端点检测和信噪比估计两个模块,端点检测模块判断当前信号的类型,避免对无声的信号段的处理,大大降低了算法的运算量,提高了硬件的运行效率;信噪比估计模块根据当前语音信号的信噪比变化跟随修改加权函数参数,对声场环境中信噪比不同的语音信号采用具有针对性的加权函数,锐化互相关函数峰值,提高时延估计精度。2、基于红色飓风E45开发板为硬件平台,设计了基于麦克风阵列的实时声源定位系统。针对直线阵麦克风阵列和平面阵麦克风阵列无法确定声源的空间位置问题,提出了具有全空域定位能力的空间六元麦克风阵列拓扑结构;算法实现部分使用模块化设计,利用SPARTAN6系列FPGA XC6SLX45内部丰富的逻辑资源和强大的数字信号处理能力,声源定位系统每次定位耗时仅为5.3ms,满足声源定位系统的实时性要求。3、实验验证所设计系统硬件状况运行良好。针对不同的声场环境和声源类型,进行对比测试,测试结果表明改进的PHAT-GCC时延估计算法的定位成功率比PHAT-GCC时延估计算法的定位成功率要高出20%左右,满足了课题设计的要求。