混合音频信号的压缩与重建方法研究

来源 :上海交通大学 | 被引量 : 1次 | 上传用户：guosl1987

【摘要】

：

音频信号通常包含语音信号、乐音信号以及两者任意比例的混合(也即混合音频信号)。鉴于当前音频压缩编码方法或是面向纯语音信号,或是面向纯乐音信号的现实,本文对可同时面向

【作者】

：

蒋三新

【出处】

：

上海交通大学

【发表日期】

：

2015年01期

【关键词】

：

压缩感知最小绝对收缩选择算子稀疏逼近矢量量化音频压缩

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

音频信号通常包含语音信号、乐音信号以及两者任意比例的混合(也即混合音频信号)。鉴于当前音频压缩编码方法或是面向纯语音信号,或是面向纯乐音信号的现实,本文对可同时面向各类音频(尤其是混合音频)的压缩与重建方法展开了深入研究。音频信号的压缩与重建过程通常可分为：稀疏表示、分析与综合以及量化与编码等三个单元,其中,分析与综合单元通常存在两种实现方式：基于传统香农采样定理的语／乐音统一编码(Unified Speech and Audio Coding, USAC)方式和基于压缩采样理论的压缩感知(Compressed Sensing, CS)方式。两种方式中,USAC为动态图像专家组(Moving Pictures Experts Group, MPEG)于2012年颁布的最新音频编码标准,可同时面向各类音频信号,尤其是混合音频信号,且其性能不亚于当前最优的语音及乐音压缩编码标准;而CS方式则是基于CS理论,在对混合音频信号的压缩采样过程中,将压缩与采样相融合,在对信号采样的同时即实现对其压缩,使得采样过程极为简单,并在某种意义上突破了香农采样定理的局限。需要指出的是,随着科技的发展,可同时面向各类音频信号的统一压缩采样方式必将快速在我们的生活中占据重要位置。基于传统香农采样定理的实现方法具有结构成熟,兼容性好等优点,在当前及将来一段时间内将占据统治地位。但由于其复杂度高,普适性弱等缺点,必将被越来越成熟的基于cs理论的方法所替代。本论文在对混合音频信号的稀疏表示、量化与编码以及USAC压缩编码标准展开深入研究的基础之上,探讨了混合音频信号的CS压缩与重建方法。本论文的主要工作包括：(1)针对混合音频信号变换域系数的矢量量化过程中,量化器的存储需求随矢量维度的增加而指数式增长的缺陷,提出了一种具有有限个状态的熵受限矢量量化器(Finite-State Entropy Constrained VQ, FS-ECVQ)。该FS-ECVQ利用当前帧以及先前若干帧中已量化过的邻近矢量的统计特性来预测当前输入矢量的统计特性,从而有效消除了变换域系数的帧间及帧内冗余,进而显著提升了量化性能。实验表明,与USAC最终版中对应算法相比,FS-ECVQ在维持率／失真(Rate/Distortion, R/D)性能不变的同时,减少了14.6%的存储需求。(2)针对混合音频信号高频带宽扩展过程中,通常或者采用对语音信号最优的频谱复制(Spectral Band Reputation, SBR)方式或者采用对乐音信号最优的谐波延伸(Harmonic Bandwidth Extension, HBE)方式的现实,提出了一种自适应的高频带宽拓展(adaptive BWE, aBWE)方式。该方式将SBR与HBE相融合,根据音频信号当前输入帧的频谱特性实时地选取最佳的频带扩展方式,从而可同时适用于各类音频信号,尤其是混合音频信号。实验表明,在高频带宽扩展中,对于语音信号和乐音信号,aBWE的性能不亚于SBR和HBE的性能,而对于混合音频信号,aBWE的性能则明显优于SBR和HBE的性能。(3)信号的稀疏表示是CS理论应用的前提与基础,而混合音频信号在单一正交基下通常很难实现稀疏分解。针对这一难点,提出了一种基于结构化最小绝对收缩选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)的混合音频信号稀疏逼近方法。该方法将音频信号看作是音调成份、暂态成份与噪声成份的叠加,采用结构化LASSO算子将音频信号最佳地分解为音调层与暂态层。由于所得两层分别在时、频域中具有很强的稀疏特陛,为此,实现了音频信号的近似最佳稀疏分解,进而为CS理论在音频信号中的应用提供了前提与基础。(4)针对一般音频CS方法中,通常将音频信号分帧处理,各帧独立压缩与重建,而忽略其帧间的时间相关性的不足,提出了一种基于动态CS的混合音频信号重建算法,该算法在对混合音频信号进行统计建模的基础上,借助信息传递的机理充分利用其帧间的时间相关性,从而提升系统的重建性能。本课题在对传统混合音频压缩编码方法中若干关键问题展开深入研究的基础之上,探讨了将CS理论用于混合音频信号的压缩与重建。一方面传统方式中关键问题的研究可使得其更为成熟,更加有利于实际应用;另一方面,这些关键问题常常也是CS方式中的技术难点,其解决方法可作为CS方式的借鉴。为此,本课题既具有重要的理论意义也具有重要的现实意义。

其他文献

62例小儿流行性腮腺炎并发脑膜脑炎的临床诊治效果观察

目的:临床分析小儿流行性腮腺炎并发脑膜脑炎疾病的诊断方法及更昔洛韦联合干扰素治疗效果。方法:随机性选取山西省忻州市人民医院收治的62例流行性腮腺炎并发脑膜脑炎患儿临

期刊

小儿流行性腮腺炎脑膜脑炎诊治

LncRNA1在抗病毒天然免疫应答中的作用及其相关的机制研究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

会议

LncRNA抗病毒天然免疫Ⅰ型干扰素

不同剂型腐植酸复合肥在葡萄上的应用效果研究

针对肥料施用不合理、葡萄品质下降等问题,通过设置9个不同腐植酸梯度与NPK(15525)复合肥处理,利用田间试验探究腐植酸复合肥在葡萄上的应用效果。结果表明:施用腐植酸复合肥

期刊

腐植酸复合肥葡萄产量果实品质

小议公安消防部队国有资产管理

根据目前消防部队国有资产管理存在的问题,分析了如何管理公安消防部队国有资产,并对如何处置闲置的国有资产进行了论述。

期刊

消防部队国有资产管理

汉字部首的传承性

汉字部首发展演变的历程大致分为表义、形义兼顾、表形3个阶段，《说文解字》、《康熙字典》、《新华字典》的部首可以分别看作这3个阶段的代表。通过对这3部字典部首的比较研

期刊

部首传承性表义性

陕西神木煤文化公园景观设计研究

近年来,随着城镇化的进程,人们注重内涵提升和文化的追求,城市的发展愈加将历史文化作为价值导向和重要驱动。因此,以文化为核心主题的公园快速发展。此外,由于小城镇忽视建设和发展中的文化因素和环境因素,存在文化特色丢失和人们对生态宜居环境需求问题,使得在地方建设文化公园成为解决之道。同时我国用煤历史悠久,煤的使用是推动我国社会历史文明向前的重要因素,以用煤形成的文化在我国历史进程中延续。煤文化和主题公园

学位

主题公园煤文化历史文化景观设计

混合音频信号的压缩与重建方法研究

其他学术论文