基于线性预测模型的汉氦语音增强研究

来源 :同济大学电子与信息工程学院 同济大学 | 被引量 : 0次 | 上传用户:JK0803_zengyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
氦语音增强技术是保证潜水员顺利进行深海潜水的必要条件之一,国外在这一领域已开展了较多的工作,且取得丰硕的成果,而国内目前在这方面的工作甚少,尚处于初级研究阶段。本文介绍了氦语音研究的概况和发展历程,指出随着社会和科技的发展,氦语音转换为正常音的研究具有重大的现实意义。 本文基于经典的语音声管理论,分析了氦语音相对于正常音的变化规律,指出氦语音与正常音发音环境的差异是导致它们声学特性差异的主要原因,主要表现为共振峰发生非线性的偏移,而要将氦语音转换为正常音,就应修正这些差异。同时,本文对汉语氦语音进行了探索性的研究,采用实验对比手段,分析汉语氦语音的共振峰参数特征,得出结论:用于英语氦语音的增强处理算法同样也适用于汉语氦语音的增强。 氦语音增强算法的关键部分在于对偏移共振峰的增强校正。要实现氦语音增强,首先应能正确求得氦语音的频域共振峰曲线,再根据相关理论对特定峰值进行修改,使氦语音的频谱恢复正常。本文提出了一种改进的、基于线性预测(Linear Prediction,LP)的共振峰估计和修改算法,与传统的求根法以及峰值法相比,利用该算法可以较准确的求得氦语音的共振峰值,并进行修改,实现氦语音的增强。 在算法可行的基础上,本文还设计了一个基于线性预测模型的氦语音转换系统,它具有传输码率低、抗干扰强、音质效果较好、易于参数修改的优点。对于氦语音转换为正常音,主要是通过修改声道传输函数参量来实现。该系统完成了基于LP模型的英语连续音和汉语孤立音的氦语音到正常音的转换,恢复出的正常音音质虽不及正常发音的语音自然,但是人们能正确听辨,并能听辨出发音者的一些发音特征。因此,它具有携带发音人的发音特性、音质较好、便于应用的优点。
其他文献
现实生活中的语音不可避免的要受到周围环境的影响,语音增强是解决噪声污染的有效方法,它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。 本
ATM星上交换是卫星通信研究的重要方向,本文针对星上10GbpsATM交换机设计与实现问题,进行了其控制系统MPC嵌入式软件平台与硬件平台的设计与研究工作。所完成的工作如下: 1.
图像在形成、保存与传输的过程中,由于成像设备、成像环境、存储设备及传输设备等因素的影响会造成图像质量的退化,图像复原是从退化图像中获得高质量的图像,是图像处理研究
地球同步卫星和太阳同步卫星由于其特殊的轨道特性在民用、国防军事中都有广泛的应用,有巨大的研究潜力。为了实现卫星的追踪研究,需要获得目标卫星的视星等及相关光学特性。
由于无线通信信道的广播特性,其信息传输的安全性问题一直备受关注。作为传统加密手段的补充,从信息论角度研究的物理层安全通信将着重点放在泄露的根源上,并且依靠物理层的固有
作为新一代静止图像压缩编码标准,JPEG2000放弃了传统的以DCT变换为核心的分块编码方法,代之以小波变换为核心的多分辨率编码算法。这标志着小波编码将成为图像编码的主流技术
近年来,随着视频监控设备的普及,机器视觉领域的许多研究人员开始热衷于基于视频监控的各类技术研究。行人检测技术正是其中一个拥有广阔应用前景的热门研究方向。现阶段,行
无线mesh网络是一种多跳网络,因其覆盖范围大,部署方便及健壮性等一系列优点在近年受到了极大的关注。无线个域网也是当今的研究热点,IEEE 802.15.4标准定义了低速的小范围无线
基于多维星座的网格编码调制(MD-TCM)是一种比二维网格编码调制(2D-TCM)具有更多编码增益的高带宽利用率传输方案。多维网格编码调制具有相位旋转不变性、译码复杂度低、可以
综合孔径微波辐射计由于具有体积小、重量轻,并且对目标表面粗糙度等结构特征不敏感等优点,引起了世界各国的广泛研究和探索。综合孔径微波辐射成像系统的图像是指通过采样许