语种识别声学建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:starboyak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球化趋势和国际互联网的发展,人们更加迫切的希望可以突破语言的障碍进行交流,因而对于语种识别技术的需求也与日俱增。不仅如此,语种识别还广泛应用于军事、国家安全和各个信息产业领域,具有极为重要的应用价值和前景。在语种识别的声学建模中,主要有产生性和区分性两种建模方式,其典型代表分别为高斯混合模型(GMM)和支持向量机模型(SVM),两种方法采用最底层的声学特征参数建模,均具备良好的鲁棒性、高效性,同时兼具良好的互补性。因而本文从声学建模角度出发,在前后端处理、模型建立、开集拒识、以及识别算法优化等方面进行了相关的研究工作,目的是要建立一个高效、高性能的声学语种识别系统。第一,前端处理方法的研究。要想识别出语音信号中携带的语种信息,就需要获取其中能够代表该语种的特征,消除由于说话人性别和年龄,身体精神状态,信道以及噪声等因素所带来的影响。因而我们运用声道长度规整(VTLN)、特征端因子分析(fLFA)、以及噪声和非语音信号去除等技术手段来消除和减少这些因素的影响。第二,模型训练方法的研究。本文研究了基于最大互信息准则(MMI)的区分性训练方法,与传统的最大似然估计准则(MLE)不同,传统的MLE训练重视调整模型参数以反映训练数据的概率分布,而MMI准则更重视调整模型之间的分类面,以更好的根据设定的准则对训练数据进行分类;另外,在实际应用环境中,我们较难获得除语种信息以外的有关信道、方言、性别等标注信息,然而利用细化建模的方法,我们不必使用这些额外的标注信息,也可以对语种进行更为精细的建模,达到更为准确的模型刻画。第三,后端处理和优化算法的研究。后端处理主要完成系统的融合、判决识别和开集拒识等,我们运用了LDA和GMM模型等一系列技术,后端对于系统的提升发挥了极大作用;在优化算法方面,采用TopN的计算策略,使得系统时间消耗几乎不受语种模型数量的影响,又运用了OpenMP多线程编程技术,使得系统的实时率大大降低。最终,整合各种技术手段,开发出了一套基于MFC和Google Earth的语种识别演示系统。
其他文献
医学图像去噪作为图像预处理的一部分,对图像的后续处理如分割、配准、融合起着相当重要的作用。现代医学图像的去噪方法可分为空间域方法和变换域方法。其中空间域的去噪方
对某厂的MKS系列数控磨床的冷却系统的故障数据进行处理,绘制冷却系统故障间隔时间分布函数散点图以及分布密度函数散点图,利用参数估计以及数据拟合确定冷却系统模型的所属
IPv6是后IP时代发展的趋势,势必取代IPv4作为新一代的IP通信技术,而物联网的兴起使得普通传感器节点对接入Internet提出了需求。传统的IP协议栈并不适合资源和能量受限的无线传
“决胜全面建成小康社会”的战略是习近平新时代中国特色社会主义思想的重要内容,需要我们从全面把握“两个一百年”奋斗目标、全面建成社会主义现代化强国的角度全面理解.
期刊
无线通信技术的飞速发展,让人类进入了一个全新的无线信息时代。无线自组网以其无须基础设施支持、具有自主配置和自主修复等特性,不仅在军用领域得到广泛研究,在民用领域也
语言是现实中人与人之间交流的主要手段,而语音是传递语言的最基本、最直接的途径。在语音信号中包含说话人要表达的语义信息以及说话人的情感信息,其中,情感信息在人们的交
群众文化是促进我国社会主义精神文明建设最直接也最有效的方式,群众文化活动以其普及面广、活动类型多样、参与人数多等优点十分有利于地方性文化建设.因此,我们要重视群众
盲源分离作为当今信号处理学界的研究热点,已经成功地应用于图像和语音信号处理、生物医学信号分析与处理、天线阵列信号处理等诸多领域之中。其主要任务是在源信号和传输信道
CANopen协议作为CAN总线的一种应用层协议,利用CAN总线实时性、可靠性的优势,实现了标准化和通用性,在各种分布式工业自动化控制系统中得到广泛地认可和大量的应用。因此研发
涉案物品的价格认定结论,会对案件的定性产生很大的影响.但是,在涉案物品价格认定过程中,由于受价格认定方法单一、价格认定依据不明确、认定准确性得不到保障等影响,会导致