论文部分内容阅读
文章分为两个部分,第一部分为远场语音识别算法研究。目前,语音识别技术已获得了很大的发展,并且进入了实用化的阶段。这些语音识别系统对近场语音有较高识别率,但对远场语音识别率会明显下降。这是因为远场语音识别面临着更大的噪声干扰和房间混响的影响这两个难题。本文对远场语音的特点进行了分析,对现有的解决远场语音识别问题的技术进行了讨论。在此基础上,提出了一种提高语音特征参数鲁棒性的方法。
倒谱系数零均值化(CMN)算法是一种简单有效的抑制卷积噪声的方法,对减小房间混响的影响有一定的效果。但是它存在两个问题,其一是减去噪声的同时也减去了语音特征参数的均值,另外它对每一帧都作相同的处理。本文对该算法进行了改进,CMN改进算法有如下优点:可以跟踪含噪语音信号信噪比的变化,动态调节被减项的权值;具有更大的灵活性和合理性。然后,用HTK(HMMYoolkit)建立识别系统进行实验,实验结果表明:在一般房间内,用远场语音训练、远场语音识别时,采用改进算法,与采用原算法相比,识别率提高了18.3%;用近场语音训练、远场语音识别时,采用改进算法,与采用原算法相比,识别率提高了15.1%。另外,在混响强烈的混响室内,识别率也可提高3.5%。
第二部分为三维声线追踪算法研究。在对二维声线追踪的三角形前方展开法进行分析的基础上,提出一种直接在三维空间中求取声路径的高速声线追踪算法——正三棱锥前向伸展法。该算法在追踪的每一步,都向声线前方伸展出一个小正三棱锥,在其内部作线性近似,然后在该三维线性声速场内找出声线所在的平面,通过坐标变换,再于该平面内运用改进的三角形展开法,求得声线轨迹。该算法避免了传统算法中将三维空间分割成无数固定的小区域进行计算的复杂性,同时又充分继承和发挥了原有二维算法的优点。最后,用计算机模拟Luneburg透镜,对该算法进行了验证。实验数据显示该算法有较高的运算速度和精确度,比传统三维算法更加简洁可靠,可望应用于三维超声层析像重建的散射修正。