汉语耳语音特征分析与应用研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:cmz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
耳语音是一种有别于正常语音的发音模式,是一种单一发音类型,声门前部(韧带)完全靠拢,后部(杓状软骨)有一个宽三角裂隙,气流通过开放区产生摩擦噪声,形成耳语音。由此可以确定耳语音的主要特点是发音时音量低且声带完全不振动,即没有基频。耳语发音方式在生活中有着广泛的应用,例如在公共场合利用手机通信时,为了不影响他人并且保障通话内容的保密性,常常使用耳语音。耳语在一些专业领域同样有着重要的应用意义,例如语音学家用耳语音研究语音感知问题、无喉病人的语音恢复问题、公安和法院可通过耳语音分析来辨别说话人身份等等。由于耳语音的发音特性以及周边环境的影响,语音质量必然下降,清晰度可懂度较差。所以研究一种方法将耳语音转换成正常语音,必然可以推广耳语音的应用范畴,由此本文的工作就是围绕着耳语音转换的前端处理问题而展开的。本文的研究工作主要有三大部分,耳语音的端点检测、声韵分割和声调感知。耳语音端点检测的正确率是后续所有工作的保障,本文根据耳语音的混沌湍流特性以及其本征模态函数(Intrinsic Mode Function, IMF)的能量,分别提出了基于分形方法和基于经验模态分解(Empirical Mode Decomposition, EMD)拟合特征的端点检测方法,均取得了很好的效果。由于汉语作为一种声调语言,说话人的语义和情感都是通过语音的声调韵律体现出来,故要进行耳语音——正常语音的转换,必须在韵母段添加基频,因此必须在检测出有声段后,分离出声韵母。本文根据耳语的特殊发音现象,提出改进EMD算法来定位嗓音起始时刻(Voice Onset Time, VOT);并依据耳语音声韵母的不同频谱分布,分别提出基于小波分解后的近似与细节能量比(Detail-Approximation Energy Ratio, DAER)和IMF瞬时频率方法的声韵母分离。在获得韵母段后,根据人的听觉掩蔽效应,首次提出了耳语音声调的新载体——扩散Bark谱能量比例拟合曲线,并获得了较高的声调识别率78%,为下一步耳语音的转换提供了重要的信息。这些工作不但为耳语音——正常语音的转换提供了必要的参数,同时也为在数字信号处理领域的人的发音方式及人耳的感知特征作了进一步的研究。
其他文献
本文是在“十五”国家科技攻关项目“文物保护关键技术研究”课题“高新技术在古文化遗存无损探测与成像中的应用研究”支撑下完成的。三维可视化技术是目前计算机技术的一个
目前我国对城市配电网规划方案的评价还存在一些不完善的地方,评价过程往往过多的依赖于工作专家的知识和经验,导致一些规划方法不能合理的应用于实际。本文对配电网规划决策
由于工业需求的不断提升,2μm激光的输出功率有待提高,单纯的使用激光器已经无法使之满足需求,所以,基于主振荡光功率放大(MOPA)结构的高功率掺铥光纤放大器成为了研究的热点。但
随着通信技术的不断发展,人们对语音通信质量的要求越来越高。现在使用的语音编码系统大多基于窄带语音,频带限制在200-3400Hz以内。在宽带语音编码中,信号带宽扩展为50-7000Hz,
人脸表情在传递信息的过程中起着重要作用,是社会学、计算机视觉等多种学科的研究重点之一,研究鲁棒性的实时表情识别算法,对于推动基于多信息的人脸识别等人工智能的发展,具有重
论文主要研究训练符号辅助的OFDM同步算法。在分析定时和频率同步误差对系统性能影响的基础上,论文系统地介绍了国内外一些经典的训练符号辅助同步算法,包括Schmidl算法,对其
超声波助滤和清洗技术已广泛应用于水处理中,而超声空化不可避免地会对过滤膜造成损伤。如果不能快速准确地评判出膜损伤的程度,会使滤过产品质量下降,制约膜分离技术在水处理过
近十几年来,脑-机接口(Brain-Computer Interface)技术的研究在国际上引起了广泛的兴趣并获得了快速的发展。它可以为神经肌肉损伤患者提供一种不依赖正常的外围神经和肌肉输
人脸姿态估计和跟踪(Face Pose Estimation and Tracking)是指在摄像机获取的人脸图像序列中确定人脸在三维空间中姿态的方法。人脸姿态估计和跟踪作为智能人机交互和计算机
点到点协议PPP(Point-to-Point Protocol)是一种提供点到点链路上传输,封装网络层数据包的数据链路层协议,是目前应用最广泛的广域网协议。PPP提供了一整套链路建立,维护和拆