论文部分内容阅读
本文围绕目前前沿的基于声学特征的语种识别技术建模和实用化过程中系统性能存在的不足和挑战,从建模方法层面进行了深入的研究,主要创新性研究成果如下: (1)提出了三种结合极限学习机的语种识别建模算法。正则化最小类内方差极限学习机综合利用了数据的整体分布情况和类边界数据的分布情况;流形正则化极限学习机则充分挖掘了数据在特征空间中的非线性分布情况;流形正则化最小类内方差极限学习机可以在理论上将上述两种算法进行统一。这三种算法均可以处理更加复杂的数据分布情况,在GMM超矢量(GMM Super-Vector,GSV)特征空间中,较之传统的支持矢量机(Support Vector Machine,SVM)建模算法可有效地提升系统性能。 (2)提出了一种结合深度极限学习机的身份认证矢量(identity vector,i-vector)建模算法。该算法可以从多角度充分挖掘i-vector特征中包含的分类信息。基于该算法的系统性能明显优于传统的基于线性鉴别式分析(LinearDiscriminant Analysis,LDA)后接余弦距离打分(Cosine Distance Scoring,CDS)分类算法的系统性能,同时该算法对易混语种和短语音语种识别性能也有大幅度的提升。 (3)提出了一种基于迁移学习的语种识别建模算法。本文针对实际应用中存在的只有少量与测试集匹配的训练数据的情况,采用迁移学习的思想,利用大量的与测试集不匹配的训练数据辅助进行训练。提出了基于核方法的迁移学习算法以及基于极限学习机和深度极限学习机的迁移学习算法。实验表明,上述各个算法均可明显提升系统的识别性能。 (4)提出了一种基于分差准则的训练数据标注错误检测和数据筛选方法。本文针对训练数据中存在标注错误的情况,提出利用分差准则对训练数据进行筛选。该方法是一种通用的方法,不依赖于具体的建模分类算法。研究表明,较之传统的数据筛选方法,该方法可以更加准确的对训练数据中标注错误的数据进行检测,从而有效地提升语种识别系统的性能。 有关工作表明,本文所提算法可有效地提升现有语种识别系统的性能并在一定程度上解决语种识别实用化中存在的问题。最后,本文将提出的改进系统与基线系统及并行音素识别器后接向量空间模型(Parallel Phone Recognizer followedby Vector Space Model,PPRVSM)系统进行融合,融合系统在NIST LRE2009年评测30秒、10秒和3秒测试条件下的Cavg分别达到0.78%、1.93%和9.45%,通过与国际报道的最好结果相对比,本文融合系统的性能可以和国际一流语种识别水平相比拟。