基于自适应的LVCSR系统半监督学习方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：nhhwhm

【摘要】

：

语音识别技术日趋成熟,但仍然存在一系列难题有待解决,尤其是大词表连续语音识别(LVCSR)技术,在识别速度、识别正确率、系统顽健性等能力上还远远没有达到尽善尽美。特别是在

【作者】

：

邱荣发

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2010年期

【关键词】

：

大词表连续语音识别自动标注系统半监督学习隐马尔科夫模型声学模型数据筛选策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音识别技术日趋成熟,但仍然存在一系列难题有待解决,尤其是大词表连续语音识别(LVCSR)技术,在识别速度、识别正确率、系统顽健性等能力上还远远没有达到尽善尽美。特别是在声学模型的训练方面,最常用的手段就是使用人工标注的数据来训练声学模型,这样的方法需要大量的标注数据,而人工标注这些数据需要耗费大量的金钱和时间;因此提出了一个新的半监督学习方法—分阶段半监督学习,来训练声学模型。分阶段半监督学习仅需要小部分的人工标注数据来初始化声学模型参数,然后加载模型去识别大量的未标注数据;数据筛选策略对识别结果进行分析,然后合成最优的结果作为标注数据,重复进行训练。依据这种新的半监督学习方法建立了自动标注语料系统(ALCS)。和一般的获取标注数据来训练声学模型的方法相比,分阶段半监督学习有以下几个优势:它仅仅选取一部分词频分布均匀和具有代表性的人工标注数据来初始化模型参数,避免了繁重、枯燥的语料标注工作;它构建了一个自适应的识别单元,能根据工作环境和待识别的数据自发的调整模型的参数,所以系统有好的识别性能和适应性;人工标注数据一般仅能达到有调音节的层次,系统能够自动标注到音素级别,能够满足更高标注精度的需求,实现了精细标注;持续学习能力对于半监督学习是至关重要的,只要系统能不断地得到未标注的数据,就能持续不断地学习、标注和训练模型,从而不断地提升系统性能。实验结果证明,这种新的半监督学习方法在自动标注语料、训练模型方面有良好的表现,用这种半监督学习方法训练出来的声学模型来对测试集进行识别,识别率大约有4.5%的提升。

其他文献

距离加权特征脸特征提取算法及其改进

人脸识别技术是计算机模式识别领域非常活跃的研究课题，它是利用计算机分析人脸的图像，抓住人脸的轮廓特征和局部细节特征，提取有效的识别信息，研究匹配和识别方法，用以辨认身份的

学位

人脸识别特征提取算法Fisher线性鉴别距离加权图像预处理

基于SOA软件体系的研究与设计

SOA(Service Oriented Architecture)是由IBM、Microsoft等软件公司倡导的一种新型企业级系统架构。SOA强调业务流程的分离,将企业的业务逻辑从传统的紧耦合中分离成可部署的

学位

面向服务架构Web服务简单对象访问协议.NET

基于构件的软件系统定制技术的研究与应用

作为解决软件危机有效途径的软件复用技术,受到了业界和学术界越来越多的关注。而基于构件的软件开发被视为最主要的软件复用的实现技术,也是当今软件复用理论实用化的研究热

学位

软件复用构件遥感图像反演算法对象模型

考虑节点耗费的时变随机网络最短路径问题研究

近年来,随着中国社会经济的迅猛发展和人民生活水平的逐年提高,国民车辆的保有量不断增加,因此,城市交通变得日益拥塞,因车辆慢行和发动机空耗而引起的汽油燃烧不充分所带来

学位

时变网络随机网络路径规划实时诱导最短路径

分子三次、分母二次第二类有理样条权函数神经网络的灵敏度分析与应用

当训练好的神经网络受到噪声干扰时,其权值会产生波动,而神经网络灵敏度可以用来评判和衡量网络的性能和网络抵抗外界噪声干扰的强弱。因此,对神经网络的灵敏度分析和研究有

学位

有理样条权函数神经网络误差分析灵敏度分析PM2.5浓度预测

真实感植物绘制技术研究

随着计算机图形学和虚拟现实技术的飞速发展，自然景观的仿真模拟越来越受到人们的重视。植物作为自然景观的重要组成部分，其真实感绘制一直以来都是热门的研究课题之一。在影视

学位

真实感绘制技术植物景观分形算法迭代函数仿射变换三维点云

重叠地址空间的二次重定向在ARM920T处理器上的设计与实现

提出了一种嵌入式处理器ARM上的操作系统设计方法，该方法将低端的2G地址空间划分为64个32M的地址空间，一个嵌入式任务使用一个这样的32M地址空间。每个任务在逻辑上使用低端的3

学位

重叠地址空间嵌入式处理器操作系统设计方法

分布式存储系统中快速修复编码与性能评价

分布式存储系统是一种存储设备基于网络互连的系统,具有较好的存储能力和较低的开销。由于系统内提供存储服务的设备往往具有不稳定性,存储节点出现数据失效的情况时有发生,

学位

分布式存储系统存储策略最少带宽再生编码快速修复

多优先级队列分组调度研究

随着网络技术的发展,各种新的业务相继出现。这些业务在带宽和延迟等方面有着不同的要求。如何支持这些业务的QoS要求,是当前网络研究的一个热点。流量整形和分组调度都是实

学位

服务质量分组调度PQBEDF算法流量整形

函数聚类及其进化计算知识获取研究

对遗传算法的研究有很多方面,一批学者在对遗传算法的基本构成-选择、交叉和变异等三个基本遗传算子和群体大小、终止代数及其相应算子概率等运行参数的研究后发现,算子及其

学位

进化计算函数聚类共生矩阵函数地貌

基于自适应的LVCSR系统半监督学习方法的研究

其他学术论文