论文部分内容阅读
随着全球化趋势和国际互联网的发展,人们更加迫切的希望可以突破语言的障碍进行交流,因而对于语种识别技术的需求也与日俱增。不仅如此,语种识别还广泛应用于军事、国家安全和各个信息产业领域,具有极为重要的应用价值和前景。在语种识别的声学建模中,主要有产生性和区分性两种建模方式,其典型代表分别为高斯混合模型(GMM)和支持向量机模型(SVM),两种方法采用最底层的声学特征参数建模,均具备良好的鲁棒性、高效性,同时兼具良好的互补性。因而本文从声学建模角度出发,在前后端处理、模型建立、开集拒识、以及识别算法优化等方面进行了相关的研究工作,目的是要建立一个高效、高性能的声学语种识别系统。第一,前端处理方法的研究。要想识别出语音信号中携带的语种信息,就需要获取其中能够代表该语种的特征,消除由于说话人性别和年龄,身体精神状态,信道以及噪声等因素所带来的影响。因而我们运用声道长度规整(VTLN)、特征端因子分析(fLFA)、以及噪声和非语音信号去除等技术手段来消除和减少这些因素的影响。第二,模型训练方法的研究。本文研究了基于最大互信息准则(MMI)的区分性训练方法,与传统的最大似然估计准则(MLE)不同,传统的MLE训练重视调整模型参数以反映训练数据的概率分布,而MMI准则更重视调整模型之间的分类面,以更好的根据设定的准则对训练数据进行分类;另外,在实际应用环境中,我们较难获得除语种信息以外的有关信道、方言、性别等标注信息,然而利用细化建模的方法,我们不必使用这些额外的标注信息,也可以对语种进行更为精细的建模,达到更为准确的模型刻画。第三,后端处理和优化算法的研究。后端处理主要完成系统的融合、判决识别和开集拒识等,我们运用了LDA和GMM模型等一系列技术,后端对于系统的提升发挥了极大作用;在优化算法方面,采用TopN的计算策略,使得系统时间消耗几乎不受语种模型数量的影响,又运用了OpenMP多线程编程技术,使得系统的实时率大大降低。最终,整合各种技术手段,开发出了一套基于MFC和Google Earth的语种识别演示系统。