论文部分内容阅读
本文对噪音条件下的语音识别进行三个方面的实验研究,提出适合在噪音条件下进行识别的算法。针对通常谱熵法只能在15dB环境下工作的特点,本文提出谱平坦度法,可以在0dB的恶劣环境下稳定地工作。在特征提取过程方面,通常都是取12维MFCC参数。本文利用临界带进行滤波器组选择,加入了听觉响应时间平滑,并适当取舍MFCC成分,仅用3维的MFCC,大大降低了MFCC维数和训练算法复杂度,加速了模型收敛,提高了模型输出概率。实验证明,进行平滑后,模型训练时的输出概率是原来的200倍,说明找到了更好的中心。在模型方面,本文抛弃了状态转移矩阵和初始概率向量,采用音位设置HMM状态数,取得很好的识别效果:一方面可以避免数据不足情况的发生;另一方面,状态数目减少也能提高收敛速度和识别速度。