论文部分内容阅读
语种识别技术是利用自动化方法对语音内容所属语言种类的判决过程。语种识别技术作为智能语音处理中包括自动语音识别、声纹识别及自然语言处理中重要的前端处理过程,在近十年有了长足的发展。到目前为止,基于深瓶颈特征的全差异空间建模是国际主流语种识别方法,并取得了目前公认最好的识别性能。该方法使用基于深度神经网络的声学模型,提取能够描述音素状态的深瓶颈特征并建立相应的高斯混合模型,但这些信息并不直接面向语种区分性信息进行建模;并且由于全差异空间建模是生成式的学习方法,在训练过程中并没有用到语种标号的信息,而忽略了不同语种类别之间的分类面,因此该系统在信息量不足的短时语音上性能有较大幅度的衰减。近几年,也有学者利用端对端网络的方法搭建了语种识别系统。这类网络摒弃了传统的全差异空间建模方法,输入底层声学特征,输出语种标号。从简单的深度神经网络到近几年流行的长短时记忆-循环神经网络再到最新的基于注意力机制的网络结构都有涉猎。大多数网络的性能差强人意,但仍然难以在性能上与基线系统形成优势。本文围绕基于端对端神经网络的策略提出了一些语种识别方法,并做了相应的分析,具体研究内容包括以下几点。首先,本文实现了端对端网络的语种识别方法,称为LID-net。LID-net首先利用深度神经网络在帧级特征上的优秀建模能力提取带有语种区分性信息的特征;然后利用卷积神经网络的卷积层提取具有语种区分性的基本单元,称为LID-senone,这是仿照语音识别中对三音子状态的定义;再利用卷积神经网络的池化层提取语音的段级表达;最后使用全连接层对语音段表示进行分类操作。实验表明,该网络在不同时长的不同指标中相比国际主流方法均有提升,尤其在短时及中短时语音上的识别性能上有较大幅度提升。其次,本文进行了基于LID-net的语种识别建模方法的研究,旨在利用语种区分性基本单元LID-senone进行高阶统计量信息建模。本文实现了两种建模方法,一种是基于LID-net的全差异空间建模,另一种是基于LID-net的Fisher Vector建模,两种建模方法的特征及混合高斯模型都是直接面向语种区分性信息进行建模的。实验表明,两种方法在各种时长上的识别性能均有提升。最后,本文搭建了另一种利用端对端网络的语种识别方法,称为LID-bilinear-net。该网络结合了端对端建模方法的区分性训练及全差异建模方法可以有效提取特征高阶统计量信息的优势,提取LID-senone的高阶统计量信息。实验结果表明,该网络在短时语音上的识别性能有了进一步地提升。