基于卷积神经网络的语种识别方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:soochow_deer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别技术是利用自动化方法对语音内容所属语言种类的判决过程。语种识别技术作为智能语音处理中包括自动语音识别、声纹识别及自然语言处理中重要的前端处理过程,在近十年有了长足的发展。到目前为止,基于深瓶颈特征的全差异空间建模是国际主流语种识别方法,并取得了目前公认最好的识别性能。该方法使用基于深度神经网络的声学模型,提取能够描述音素状态的深瓶颈特征并建立相应的高斯混合模型,但这些信息并不直接面向语种区分性信息进行建模;并且由于全差异空间建模是生成式的学习方法,在训练过程中并没有用到语种标号的信息,而忽略了不同语种类别之间的分类面,因此该系统在信息量不足的短时语音上性能有较大幅度的衰减。近几年,也有学者利用端对端网络的方法搭建了语种识别系统。这类网络摒弃了传统的全差异空间建模方法,输入底层声学特征,输出语种标号。从简单的深度神经网络到近几年流行的长短时记忆-循环神经网络再到最新的基于注意力机制的网络结构都有涉猎。大多数网络的性能差强人意,但仍然难以在性能上与基线系统形成优势。本文围绕基于端对端神经网络的策略提出了一些语种识别方法,并做了相应的分析,具体研究内容包括以下几点。首先,本文实现了端对端网络的语种识别方法,称为LID-net。LID-net首先利用深度神经网络在帧级特征上的优秀建模能力提取带有语种区分性信息的特征;然后利用卷积神经网络的卷积层提取具有语种区分性的基本单元,称为LID-senone,这是仿照语音识别中对三音子状态的定义;再利用卷积神经网络的池化层提取语音的段级表达;最后使用全连接层对语音段表示进行分类操作。实验表明,该网络在不同时长的不同指标中相比国际主流方法均有提升,尤其在短时及中短时语音上的识别性能上有较大幅度提升。其次,本文进行了基于LID-net的语种识别建模方法的研究,旨在利用语种区分性基本单元LID-senone进行高阶统计量信息建模。本文实现了两种建模方法,一种是基于LID-net的全差异空间建模,另一种是基于LID-net的Fisher Vector建模,两种建模方法的特征及混合高斯模型都是直接面向语种区分性信息进行建模的。实验表明,两种方法在各种时长上的识别性能均有提升。最后,本文搭建了另一种利用端对端网络的语种识别方法,称为LID-bilinear-net。该网络结合了端对端建模方法的区分性训练及全差异建模方法可以有效提取特征高阶统计量信息的优势,提取LID-senone的高阶统计量信息。实验结果表明,该网络在短时语音上的识别性能有了进一步地提升。
其他文献
语音是人们最重要的交流方式之一。由于日常生活环境中噪声的存在,以及信道传输损失等等因素,语音质量往往会受到影响,我们所接收到的语音中所包含的信息也会大打折扣,因此如
无线射频识别(Radio Frequency Identification,RFID)技术,是一种利用射频通信实现的非接触式自动识别技术。RFID通过射频信号自动识别目标对象,获取相关的数据,无需人工接触即可
在图像处理和分析中,边缘检测是一种重要的手段。图像边缘特性的检测与提取方法,一直是图像处理与分析技术中的研究热点。论文通过将车辆识别与边缘检测结合起来研究,可以让
非视距紫外光通信是一项新兴的无线光通信技术。对于非视距紫外通信而言,发送端的光信号经由大气的散射效应,通过非视距路径到达接收端被接收。这种非视距传输的方式,无疑大
纳米网络是纳米级尺度设备之间进行信息交互的一项前沿技术。为了适配严重受限的尺度尺寸、物理结构和功耗的条件,研究人员提出了在物理层通过分子通信实现纳米尺度设备之间
基于大规模可见光遥感图像的全自动建筑物提取技术已经被研究了数十年了。该技术在遥感图像分析领域扮演了重要的角色,它被广泛应用于数字城市,军事侦察,灾害评估等。但是,真实城市场景中建筑物的尺寸范围很宽、颜色纹理十分复杂、日照原因产生的阴影遮挡等难题为屋顶提取带来了巨大地挑战。在本文中,我们提出了一个完整的建筑物区域识别和轮廓估计系统,相比之前的方法,本文的系统既显著地提高了识别准确率,也降低了轮廓估计
随着Internet的迅速发展,以Web形式呈现的电子文本的数据量成几何速度增长。如何高效的组织和管理这些数据,并全面、准确、快速地推送给用户所需要的信息,是目前信息技术研究的
在各种灾害中,火灾是最普遍的危害人身安全的主要灾害之一。消防报警系统是在发生火灾的萌芽阶段进行报警,传统的有线火灾监测系统线路安装复杂,布线困难。随着无线通信的发