基于子带卡尔曼滤波联合相位重构的语音增强方法

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:y886520520886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是指从含噪语音中去除噪声,以提高语音质量和可懂度。目前已经有包括卡尔曼滤波在内的多种语音增强方法,其中卡尔曼滤波器的增强性能很大程度上取决于参数的估计精度,但是传统卡尔曼滤波方法中对于参数的估计存在缺陷,这会直接影响到卡尔曼滤波器的增强性能。此外由于早前的研究者认为相位对于语音质量的提高贡献有限,因此多数语音增强方法在对含噪语音进行增强时仅对幅度谱进行处理而相位则使用含噪语音相位直接代替。最近的研究表明相位对于语音质量的提高有一定作用,对相位的合理利用可进一步提高增强语音的质量。为解决上述方法在对语音进行增强时出现的问题,本文研究了基于子带卡尔曼滤波联合相位重构的语音增强方法。具体研究内容如下:(1)介绍了语音增强技术的研究价值以及国内外研究现状,描述了语音信号的常见概念,并对与本文方法有关的深度学习模型进行简要描述。(2)针对传统卡尔曼滤波器在实际噪声条件下无法准确估计线性预测系数(Linear Predictive Coefficients,LPC)导致卡尔曼滤波器在使用时出现增强性能下降的问题,提出一种基于多目标深度神经网络的子带卡尔曼滤波语音增强方法。该方法将含噪语音通过离散小波变换(Discrete Wavelet Transform,DWT)分解为含噪子带语音,计算含噪子带语音的LPC并转化为线谱频率(Line Spectrum Frequencies,LSF)。将含噪子带语音的LSF作为网络的输入,对应的纯净子带语音和噪声子带的LSF作为网络的输出。将输出的LSF转换为LPC用于构建子带卡尔曼滤波器,含噪子带语音进行子带卡尔曼滤波后得到增强子带语音,增强子带语音再通过逆离散小波变换(Inverse Discrete Wavelet Transform,IDWT)合成增强全带语音。实验结果表明,所提方法在语音质量和可懂度方面都优于几种基于卡尔曼滤波的对比方法。(3)针对传统语音增强方法在对相位处理时存在的不足以及增强过程中普遍存在的语音失真问题,提出了改进相位补偿结合谐波重构的语音增强方法。该方法通过深度学习模型估计先验信噪比并利用先验信噪比对传统相位谱补偿函数进行改进,在此基础上对增强后的语音以谐波重构的方式进行二次增强来解决存在的语音失真问题。实验结果表明,改进相位补偿结合谐波重构的语音增强方法较对比方法具有更好的增强能力,可以有效减少语音失真,提高语音质量。
其他文献
目前,我国已经全面进入第五代(the fifth generation,5G)移动通信技术商用时代,5G技术广连接的特性将推动物联网(Internet of Things,Io T)产业进一步向前发展。传统的物联网设备多使用有源射频单元,当接入网络的设备较多时,其总能耗不容小觑,且有源设备通常体积较大。反向散射通信方式被认为是推动物联网产业进一步发展的新机遇,反向散射通信系统以其终端无源、体积小的
大脑本质上是一个非线性复杂的系统,其神经信号内在特征的变化可以反映大脑结构与功能的异常。在神经信号特性中,复杂度研究一直是研究者们关注的焦点。熵作为一种常用的复杂度分析方法,能够有效刻画神经信号的无序性和混乱程度,并且随着技术的发展,多尺度熵在神经信号分析领域也得到了广泛的应用,其被用来分析非平稳信号时表现出了显著的优势。近些年,大量的研究人员利用熵指标分析大脑静息态功能性磁共振成像(Restin
光电子器件是光通信网络的基础,光学谐振腔作为典型光学结构,广泛应用于光学滤波器、缓存器、光开关等器件中。品质因子Q值是衡量光学谐振腔性能的一个重要参数,代表谐振腔储存光能量的能力,追求更高的Q值是谐振腔研究的永恒主题之一。除了性能之外,光学谐振腔样式众多,各有其结构特点,所以针对不同应用场景,探索更加切合实际需求的光学谐振腔,不仅能拓宽光学谐振腔的应用领域,也能发挥不同谐振腔各自的优势特点。基于共
脑老化是一个复杂的、不可避免的生物学过程,对大脑成熟和衰老生长曲线的研究可以探索人脑老化机制,有助于对老年性认知疾病的早期干预。阿尔茨海默症(Alzheimer’s Disease,AD)是一种起病隐匿的且与认知能力相关的老年性神经退行疾病,从早期轻度认知损害(Early Mild Cognitive Impairment,EMCI)到晚期轻度认知损害(Later Mild Cognitive I
进入21世纪以来,基于位置信息的服务迅速发展,全球卫星导航系统(Global Navigation Satellite System,GNSS)在人们的生活中变得越来越无可替代。全球卫星导航系统定位方式主要有标准单点定位、标准差分定位、精密单点定位(Precise Point Positioning,PPP)和载波差分定位(Real-time kinematic,RTK)四种。其中,精密单点定位因
近几年来,随着科学技术的磅礴发展,出现了数据爆炸的现象,数据如何进行存储也就成为了比较重要的研究课题。为了存储更多的数据,并且为用户减少存储开销,于是云环境存储应运而生,越来越多的用户选择将数据存储在云环境中,但是云存储的出现也面临着数据不安全的问题,需要用户对数据加密处理后再上传到云环境中。云存储指的是数据所有者将数据存放在网络中的多台虚拟服务器中,它们由第三方服务商来管理,而不是本地计算机中,
入侵探测技术被广泛用于区域防护以保障人身和公共财产安全。现有的入侵探测技术包括激光雷达、光学/热红外摄像机、电子围栏、振动电缆传感器、光纤传感器和入侵探测雷达。除入侵探测雷达外,其它入侵探测技术普遍存在隐蔽性差、易受环境温度、可见度以及嘈杂振动影响的缺陷。入侵探测雷达采用泄漏电缆或者常规天线发射探测信号和接收回波信号,从而构建人眼不见的电磁防护区域,弥补了上述缺陷。但是受限于发射信号的固有特性,入
激光雷达作为一种主动式扫描探测技术,可以快速获取周边环境的信息。随着激光雷达在机器人、无人驾驶等领域的广泛应用,国内外激光雷达市场迅速发展。鉴于目前市场上成熟的激光雷达产品存在价格昂贵、国外技术垄断和控制算法不开源等问题,本课题开展了激光雷达的设计研究工作。本文以移动机器人室内环境感知为背景,结合车载环境和实际应用需求,使用课题组自行研制的激光测距模块,设计了一种二维激光雷达扫描系统。设计的二维激
基于超宽带雷达的非接触式生命体征监测系统是将雷达技术应用于生物监测领域,其目的是通过非接触方式获取目标人体的呼吸和心跳频率。在新冠肺炎全球蔓延的大背景下,医院各方都在寻求更为有效与安全的监测手段,而基于超宽带雷达的非接触式生命体征监测系统,在保护病人生命安全的同时,也为前线医疗人员提供安全保障,集合了高效、安全的监测特征,不仅应用于防疫医疗监测,也适用于慢性病患者或老人居家呼吸心跳等健康体征监测,
语音识别技术在人工智能的推动下再一次迎来发展的热潮。人们迫切的希望在实际的生活当中,也能与智能机器有更好的交流,让机器听懂人们的语言,按照人们发布的指令正确的完成应答操作。但当下,语音识别技术走出实验室进入生活仍存在一些技术性难题。在没有噪声或者噪声很小的环境中,语音识别系统识别效果良好,会有较高的识别率;但当在背景噪声很大,或者识别环境更复杂的情况下,识别系统的性能就不如实验室安静环境下理想。所