面向蒙古语的语音识别声学建模研究

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:lkhyuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动语音识别是具有巨大应用价值和广阔应用前景的人机交互技术,而声学建模则是创建语音识别系统的关键环节与核心技术,也是语音识别研究的重点和热点之一。本文对蒙古语语音识别声学建模相关的若干问题进行了深入的探索和研究。目前,在国际信息化浪潮的推动下,蒙古族自治区域正在快速步入信息化社会。在这种历史背景和条件下,开展本文的研究工作,不仅具有重要的学术价值,而且具有积极深远的社会现实意义,它必将有益于广大蒙古族同胞生活、学习、工作自动化程度的提高,必将有益于蒙古族自治区域信息化水平的提升。本文研究工作在蒙古语语音识别声学建模的模型选择、相关支持技术以及参数估计等三个基本问题方面均有所涉及,具体研究内容和创新点如下:1.蒙古语声学模型拓扑结构优化模型选择方面,针对当前创建蒙古语语音识别系统时只能采用经验式或启发式方法选择较大建模对象(指其读音由两个或两个以上的音子构成的建模对象)声学模型拓扑结构的情形,本文提出了分别基于标准遗传算法和标准粒群优化算法的两个蒙古语较大建模对象声学模型拓扑结构优化算法,并给出了算法实现相关问题的解决方案和高斯核非均匀分配系统的训练策略。与以往的进化方法在其它语言语音识别领域中的类似应用相比,本文算法都具备同时优化模型状态数与各状态高斯核数量、摒弃高斯核均匀分配以及自动搜索等优点。在验证和应用上述模型拓扑优化算法的实验中,与分别使用一种传统方法选择蒙古语较大建模对象声学模型拓扑结构的两组基线系统相比,利用本文算法选择蒙古语较大建模对象声学模型拓扑结构的所有语音识别系统,其识别性能均占显著优势;相对于表现最好的基线系统,分别使用本文提出的一种算法的两组拓扑优化系统,其词准确率的提升幅度分别达到了11.52个百分点和10.42个百分点。2.蒙古语声学模型状态聚类:问题集设计建模相关支持技术方面,针对目前蒙古语语音识别界亟待设计出合理、完善的蒙古语问题集以有效支持声学建模过程中基于决策树的参数绑定方法的情形,本文讨论了蒙古语问题集设计中的原则、音子集的选择、音素表的完善、复合元音的归类、松与紧概念的应用等关键问题的解决方案,给出了一个蒙古语标准音问题集,指出了该问题集相对于已有蒙古语问题集的优越性。决策树方法与数据驱动方法的多次对比实验中,利用本文蒙古语问题集的前者每次都带来了略高于后者的系统识别率,这说明本文的蒙古语问题集能够有效支持基于决策树的状态聚类与绑定方法;问题集对比实验中,本文给出的问题集的表现好于目前已公开发表的其它蒙古语问题集,这说明它的设计更加合理、更为完善。3.蒙古语声学模型区分性训练模型参数估计方面,针对蒙古语口语中的众多读音相似的音子的相互误识正在严重影响蒙古语语音识别系统的识别性能的现状,本文将通过增强模型之间的区分度提高系统识别性能的区分性训练技术首次应用在蒙古语语音识别领域中。具体地,将最大互信息、最小词错误和最小音素错误等区分性训练准则系统地应用在蒙古语声学建模任务中,设计了应用方案,解决了训练数据列表的自动调整、训练语料外三音子模型的合成、文本文件的自动生成与处理等若干技术问题,提出并实现了能够直观了解区分性训练效果的音子级解码和基于混淆矩阵的解码结果对比方案,基于区分性训练系统及其基线系统的混淆矩阵,发现和总结了蒙古语音子在语音识别过程中的元音和辅音之间很少发生误识现象、弱短元音是元音与辅音相互误识情况中的主要的元音音素、容易相互误识的辅音只有有限的若干对等误识规律。实验结果表明,各种准则的区分性训练均能使蒙古语语音识别系统的识别率得到较大幅度的提高,区分性训练系统的词准确率的提升幅度最高达到了6.44个百分点。4.蒙古语声学模型自适应训练同样在模型参数估计方面,针对基于众多说话人语料创建的蒙古语非特定人语音识别系统在交付给特定说话人使用时识别率不理想的情形,本文将通过重估模型参数使系统声学模型更具特定说话人特征的说话人自适应技术首次应用在蒙古语语音识别领域中。具体地,在设计应用方案并解决回归类树叶子结点数的设置等若干技术问题的基础上,将最大似然线性回归类算法和最大后验概率类算法系统地应用在蒙古语声学建模任务中。此外,本文还探索了说话人自适应技术的更深层次的用途:对说话人自适应算法以及它们的有效组合在蒙古语声学建模过程中的性别自适应效果进行了实验验证,并在利用说话人自适应算法进行蒙古语方言土语的自适应方面做了一些探索性的工作。实验结果表明,各种参数变换的说话人自适应算法均能使蒙古语语音识别系统的识别率得到较大幅度的提高,它们带来的词准确率的提升幅度最高达到了32.75个百分点;说话人自适应技术在蒙古语声学建模中具有很好的性别自适应效果,性别自适应带来的词准确率的提升幅度最高达到了47.08个百分点;在不受性别自适应影响的情况下,只对声学模型的高斯核均值向量进行调整的说话人自适应算法和算法组合具有使标准音蒙古语语音识别系统的针对鄂尔多斯土语的识别率得到有效提高的方言自适应能力,它们带来的词准确率的提升幅度最高达到了7.67个百分点。
其他文献
在信息技术高速发展的背景下,电子工程日趋智能化和精密化,智能化技术逐渐渗透电子工程领域的各个层面,在节约人力成本、提升工作效率方面发挥着不可替代的作用,为实现自动化
凑佳苗是如今日本文坛中同东野圭吾其名的“推理女王”,其小说深度“致郁”的故事内容常常会使读者陷入绝望。同传统悬疑推理小说家的写作方式不同,凑佳苗的小说常以“告白体”的形式多角度展现人物的内心独白,她写作的重点也并未放到悬疑案件的谜团布置上,而是充分其利用写作角度的独特性,将读者引领到事故发生内在成因,并由此展开对社会和人性的深度观察。近年来凑佳苗的小说被频频改编成电影电视剧搬到银幕当中,从2010
伴随着社会经济科技的高速发展,农业市场的占比率在逐渐提升,市场规模也不断扩大,这一现象要求我们必须加快进行农产品物流体制的建设。各单位应加大资金的投入和着重考虑可
本文分析了中国特色社会治理的发展演变历程,总结了中国特色社会治理的建设经验,提出了新时代中国特色社会治理的对策:推动理念创新;强化制度建设;完善体系建设;提升“四化”
“实际上,抄跟学习本来就是同一个过程,问题是你在学习中有没有领会到你为什么要这样抄,为什么抄这个,不抄那个?只有把一个现象背后的原理和机制弄懂了,抄的时候才能抄出神韵,才能够
尽管网络销售在中国的总体市场份额还微乎其微,但几乎所有零售商都开始正视网络购物的威胁。年轻人乐于从网上购买的商品品类在不断扩张,一个可怕的中长期预测是,10年之后,超过80
既能看书,又具备书店功能的平板电脑Kindle或许会代替纸质图书将知识带到贫困的地区去。
文章以2012—2016年沪深两市55家医药上市公司为研究样本,对我国医药行业上市公司资本结构与绩效之间的关系进行了实证研究。研究结果表明:在我国医药行业,公司绩效随着资产
在当今社会公共事务纷繁复杂,信息海量增长,公共管理运行中需决策与可能决策问题目标难以抉择、难于锁定的背景之下,政府决策所需的注意力资源之稀缺性更为彰显。政府决策者
近60年以来,基于电磁波Bragg散射理论的超视距探测已经成为远洋海态反演领域不可或缺的高新技术之一。现阶段通过地波雷达提取风、浪、流等海洋动力学参数的理论大多来源于Ba