论文部分内容阅读
语种识别(Language Identification)是计算机通过分析处理一段语音以判别其所属语种的过程,该技术是近年来语音识别领域的一个新的研究热点,它在多语种信息检索和查询,机器翻译和多语种语音识别的前端处理,以及军事领域中扮演着很重要的角色。并行音素识别结合语言模型(PPR-LM)是最经典的语种识别方法。然而,训练音素识别器时,需要大量人工标注好的音素语料,因而PPR-LM系统的移植性较差。基于GMM的语种识别系统,不需要人工标注语料,具有良好的移植性,特别适合于中国少数民族语的语种识别。论文主要研究与文本无关的语种识别方法,利用通用背景高斯混合模型(GMM-UBM)、语言模型、非监督模型和得分自适应方法建立语种识别系统,以探索提高识别率的途径。论文的主要工作包括:(1)构建一个面向少数民族语种识别的电话语音数据库,该数据库包括8种少数民族语和汉语普通话,每个发音人将有一段谈话录音和20句时间不等的自动问答录音;除汉语发音人外,每个民族语发音人分别用本民族语和汉语普通话完成谈话录音和自动问答录音。(2)利用PPR-LM语种识别原理,构建了一个新的GMM-UBM-LM语种识别系统。该系统充分利用了语言底层的声学信息和音位结构分布信息。以5种语言的电话语音为实验数据,分别设计并实现了三种实验:(a)基本GMM-UBM语种识别实验;(b)采用声学得分和语言模型得分直接相加的GMM-UBM-LM语种识别实验; (c)利用LDA技术实现后端分类的GMM-UBM-LM语种识别实验。(3)在基本的GMM-UBM语种识别系统的基础上,引入非监督得分规整自适应技术,构建新的语种识别系统,以减小同一语种的不一致性,扩大不同语种识别之间的不一致性。设计并完成该语种识别系统的实验,给出详细的实验对比以及讨论。实验结果表明:论文设计的基于GMM-UBM、语言模型(LM)和非监督得分规整的语种识别系统具有较好的扩展性和应用性。利用LDA技术实现后端分类的GMM-UBM-LM语种识别实验,识别率提高10%,但系统的语言模型(LM)训练时间较长和实时性较差;非监督得分规整的语种识识别率提高11%,系统的实时性较好。如果有足够的测试语料,该方案将会获得更好的识别效果。