论文部分内容阅读
远场语音识别在智能家居、办公环境、人形机器人、汽车和语音翻译等研究领域都有广泛应用,然而,由于远场环境中噪声混响等干扰,鲁棒又方便地识别远场语音仍然是一个挑战。本文以此为出发点,结合阵列信号处理及自适应技术的优点,对远场噪声混响语音识别做进一步研究。结合仿真及实际实验,验证了所提算法的有效性。本文完成的工作有:1.首先简单介绍了远场环境下仿真模型-IMAGE模型,其次介绍远场语音识别基本理论,包括预处理、语音特征参数提取、声学模型、语言模型、解码和搜索算法。在Ubuntu系统上安装了波束形成工具箱BTK及语音识别引擎Pocketsphinx。阐述了远场语音识别系统的基本流程。2.采用声达时间差(time difference of arrival,TDOA)算法对声源进行定位,利用定位结果调整延迟求和波束形成(Delay&Sum Beamforming,DSBF)的权重,减小非期望方向上的干扰,提高语音质量。在此基础上,采用最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成和超指向波束形成(Super-directive Beamforming,SDBF)减小空间相干噪声,用Zelinski、McCowan两种后置滤波方法进一步减小残留噪声。介绍了仿真实验配置,设置反射系数为0.6,在不同噪声下对所提算法进行实验,结果表明波束形成能明显减小语音信号干扰,提高系统识别率,后置滤波能进一步提高系统鲁棒性。3.采用最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)和最大后验概率(Maximum A Posteriori,MAP)两种方法调整声学模型参数,得到适用于远场环境的新的声学模型。用仿真实验验证了两种算法的性能及MAP的渐进性。在实际会议室环境中采集远场语音并验证了MAP算法的实用性。4.为进一步增强系统鲁棒性,提出使用语音增强和MAP联合算法进行远场语音识别。将传统的语音识别系统作为基线系统,比较了单个算法系统、联合算法系统、基线系统之间的性能。结果表明,在噪声混响环境下,联合算法有较好的鲁棒性,其系统性能优于单个算法系统,且它们的性能都优于基线系统。