基于离散余弦变换的低速率波形内插语音编码算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:aeo55121890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文基于波形内插(Waveform Interpolation,WI)模型,针对特征波形分解问题、特征波形对齐问题和相位问题作了重要改进: 在特征波形分解问题上,本文提出了基于离散余弦变换(Dsicrete Cosine Transform,DCT)的分解方法,将当前帧的特征波形分解为直流成分、低频成分和高频成分。与FIR低通滤波分解方法相比,该分解方法避免了传统方法的一帧额外延时,克服了分解后成分的不独立问题,保持了不引入分解偏差的优点,计算复杂度较FIR低通滤波方法下降了80%。在性能上,该方法也优于小波分解方法、奇异值分解方法和非负矩阵分解方法。该分解方法同时带来量化方面的优势,分解后的成分符合人耳感知特性,易于量化。同时,本文去除了传统WI声码器的对齐操作,使得编解码计算复杂度下降18%,实验结果表明,去掉对齐操作不影响重建语音质量。 在相位问题上,本文提出清/浊相位判决方法和浊音相位分类方法。在解码端,首先对当前语音帧进行清/浊判决,若判决当前帧为浊音帧,直流成分和低频成分添加固定相位,高频成分添加随机相位,且固定相位采用按基音周期分类的方法。若判决当前语音帧为清音帧,在添加相位时,直流成分、低频成分和高频成分都加入随机相位。实验表明,该方法能明显提升重建语音的听觉效果。 最后,本文提出了速率分别为2.0kbps和1.6kbps的DCT-WI语音编码器,并分别对其进行了MOS分测试。主观听觉表明,2.0kbps的DCT-WI声码器与2.4Kbps的MELP声码器具有一致的听觉效果,1.6kbps的DCT-WI声码器效果稍差于2.4kbps的MELP声码器。
其他文献
能量收集无线传感器网络是指具有能量收集能力的传感器节点感知、获取和协作传输被监控对象数据的网络,可以保证节点能量不会被耗尽,有效地解决了传统的无线传感器网络中能量
大型锻件是先进装备制造的关键部件,已广泛应用于电力、船舶、冶金、石化、重型机械和国防等领域,其质量直接影响到重大装备的整体水平和运行可靠性。为保证大型锻件及其装备的
近年来,中国经济进入新常态,主要表现为经济增长速度由高速增长变为中高速增长,经济结构进行优化升级,以及经济增长的动力从过去的要素、投资驱动转变为创新驱动.在新常态下,
随着网络通信技术和信息处理技术的发展,信息隐藏作为一种新的信息安全技术,在隐蔽通信方面得到广泛地研究与应用。信息隐藏技术是将特定的信息嵌入到图像、语音、视频或文本
时至今日无论在工业检测、交通导航和智能系统等诸多领域运动目标检测已被广泛应用。目标检测为后续其动作识别、跟踪以及行为理解等研究起到关键性作用。同时目标所产生的阴
共享经济作为作为一种新兴的经济发展方式,促使了我国经济效益与环境资源的循环发展,符合我国绿色、共享、协调、创新、开放的发展思想.本文通过对共享经济在发展过程中产生
随着多媒体与互联网技术的不断发展,各种新型的应用场合对图像压缩性能与质量的要求也越来越高,上一代图像压缩技术JPEG,已经显得力不从心。联合图像专家组2000年底成功的发
伴随Internet的高速发展,网络已深入人们日常生活的方方面面,给社会以巨大的变革。在目前的网络中运行着各种适合不同网络规模和拓扑的路由协议,无论采用什么路由协议,其目的
随着计算机网络与通信技术的快速发展,以边下载边播放为主要特点的流媒体技术成为当前的热点应用,如现今流行的视频会话、视频直播、远程教育以及医疗等。流媒体技术不等同于以
随着信息技术的不断发展当今社会正逐渐步入全球化、信息化的时代,通信安全日渐成为广大研究学者关注的热点和焦点问题,随之而来的通信系统保密性相关技术越来越被人们所重视