语音声源的研究及其应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liaonianyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声源研究,作为语音信号处理领域的一个经典课题,其内容涉及:语音产生的声学理论研究、声源信号的分析方法研究、声源变化在信息通信中的功能研究、基于声源的各种编码、合成算法研究等很多方面.声源研究在语音编码、语音合成、语音识别等各个语音学的应用领域中,都有着广泛的应用.该论文围绕着语音声源和声源研究的应用进行了一系列的工作,并在声源编码、语音合成器和声源分析等方面等提出了一些新的方法.该论文的第一章是"语音信号产生的基本声学理论".该章首先介绍了语音信号的基本特征和儿种常见的表征语音信号的数学模型.接着该章着重讨论了基于声源信号与声道滤波器的源滤波器模型,分析了声源信号和声道滤波器的定义.最后,该章阐述了声源研究的重要意义.该论文在第二章探讨了"声源信号的提取方法".该章首先介绍了逆滤波技术原理,在研究了各种逆滤波方法后,分析了它们的优缺点.文中着重讨论了一种基音同步的迭代自适应逆滤波算法(PS-IAIF)的原理和流程.在该论文的第三章"利用逆滤波和声源编码技术的音库压缩"中,作者首先介绍了自己在硕士期间完成的一个基于DSP的嵌入式文语转换系统,并通过这个在资源受限环境下的语音合成系统,阐述了语音合成中音库压缩的意义和常用方法.接下来,该章针对音库压缩的应用场合,提山了一种新颖高效的低速率编解码方案.该算法在3kbps左右的码率下获得了类似G723.1在5.3kbps码率下的效果,并具有解码端算法简单的优点.作为技术原型,该方案可以广泛应用于各种场合下的语音合成系统,特别对资源受限情况下语音合成,具有重要的意义.在针对特定人重新训练码本和确定"分裂边界"后,该编解码算法也适用于任意一段特定发音人的录音语料压缩.该论文的第四章是"声源模型研究".该章在概述了声源模型的涵义之后,首先介绍了两个具体的声源模型--LF模型和KLGLOTT88模型.结合这两个具体模型,该章着重讨论了LF模型表示声源信号的充分性问题和声源信号频谱对声道参数估计和基频调整的影响的问题,阐述并总结了作者在声源研究方面的一些观点.在该论文的第五章"基于逆滤波和声源建模的语音合成器研究"中,作者提出的一种基于IAIF逆滤波和 LF声源建模的LPC语音合成器,实现了高音质、低失真的陈述语气的语音重建;并在语音合成中,提出新的高频补偿策略,大大的改善了合成语音高频失真的现象.此类由声源模型激励的LPC语音合成器,是开展声音品质调整、说话人特征转换、感情色彩语音合成等方向研究的前提和基础.该论文的第六章是"面向自然语流的声源分析方法的设计与改进".该章首先研究了传统的声源分析方法在分析方法本身、声道模型表征以及声源度量参数提取等方面存在的不足;然后提出了一种改进的声源分析算法和利用该算法自动分析自然语流的方案,提高了声源分析的鲁棒性和精确度;并通过了针对合成元音以及自然语流的分析实验证明了该方案的有效性.
其他文献
期刊
期刊
支持多业务融合的下一代网络对网络管理提出了更高的要求,根据ITU-T NGN2004Project的定义,下一代网络的一个基本特征就是可运营的、可管理的电信网络.综合接入设备,即IAD,作
期刊
第三代移动通信系统不仅支持传统的数字语音通信,同时也支持高速率并且有QoS要求的多媒体业务.流媒体业务是随着Intemet的发展而兴起一项多媒体业务,它将是未来3G网络上数据
作为第三代移动通信系统的核心,码分多址技术能够实现更大的系统容量.传统的码分多址系统利用瑞克接收机合并来自不同路径的信号能量,能够有效的对抗无线信道的多径衰落;然而
期刊
视觉模式识别是近年来计算机与信息科学领域的热点研究方向之一,也是图像与视频检索、视频监控、生物特征识别以及智能人机交互等应用的关键技术,对于人们的日常生活与工作具有
期刊
期刊