基于混叠失真特性的音频对象编码技术研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:d632709901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维(Three-Dimensional,3D)视频技术的迅速发展,也让三维音频技术受到了广泛地关注。3D音频系统可以重建具有水平方向、垂直方向以及距离共三个空间自由度的空间音效,在空间任意位置生成虚拟声像,提供具有沉浸感的听音体验。传统的3D音频系统主要是基于声道的,如国际标准组织MPEG指定的三维多声道音频参考系统--NHK 22.2,该系统可以通过24个指定空间位置的扬声器播放对应的多声道信号来重建空间音频场景。但是基于声道的3D音频系统也具有明显的局限性,它对扬声器(声道)的数量与空间位置都有明确的要求,因此不同回放环境(不同扬声器数量或不同扬声器空间位置)的音频资源之间难以相互转换;另外,声道信号中包含多个音频对象(音源)信号,难以实现音频对象的独立控制。因此,基于声道3D音频系统的局限性与日益增长的个性化多媒体内容服务需求之间的矛盾愈为突出。为了弥补传统3D音频系统存在的不足,新一代基于对象的3D音频系统被提出。在该系统中,每个对象信号单独进行渲染,然后混合输出为扬声器信号,所以改变一个对象信号的属性不会干扰其他对象信号;并且,对象信号的渲染过程是根据扬声器的数量和空间位置进行的,可以在不同的回放环境下实现感知一致性的三维音频场景重建。因此,基于对象的3D音频系统可以适应多样化的回放环境并实现音频对象的单独控制。基于对象的3D音频可以更好地满足日益增长的个性化需求的同时也面临着全新的挑战。音频场景中往往存在大量的音频对象,导致基于对象的3D音频资源的数据量庞大,传输和存储成本较高。为实现音频对象信号的高效传输,已有多种音频对象编码技术被相继提出。现有的对象编码技术将多个音频对象信号进行混合,实现多音频对象联合编码,虽然可以实现较高的压缩效率,但是重建得到的单个音频对象信号中会存在其他对象信号的可感知成分,即产生混叠失真,会严重降低音频对象编码质量。对象信号间存在混叠失真会降低信号的独立性,一方面会导致用户无法从音频场景中彻底去除某个音频对象信号或者单独播放某个音频对象信号;另一方面,混叠失真导致基于对象的3D音频系统无法准确重建音频对象的空间位置信息,并且无法支持用户对音频对象的独立控制。针对现有对象编码技术存在混叠失真的问题,本文从以下三个方面展开研究工作,提高音频对象信号编码质量。(1)研究对象编码中混叠失真的产生条件与主要影响因子针对混叠失真成因不明确,现有方法多采用后处理降低混叠失真,效果不明显的问题,对现有音频对象编码方法典型模型进行分析,通过对关键模块处理流程进行推导并进行适当的公式化表达,确定混叠失真的估计模型,进而确定混叠失真产生的条件与主要影响因素。基于通用数据集实验验证可以发现,通过改变混叠失真主要影响因素可以有效降低对象联合编码产生的混叠失真,提升对象信号编码质量,因此本文研究可以为有效降低混叠失真提供理论依据。(2)研究混叠失真的感知特性与高效的音频对象编码方法针对现有编码方法基于子带的形式提取对象参数,导致频率成分的能量无法准确重建,造成明显混叠失真的问题,本论文基于原始ERB子带划分方式,对子带进行多次细分得到不同的参数频域分辨率;并根据不同频域分辨率编码音频对象,对解码信号进行主观听音测试并对存在的混叠失真进行估计,确定混叠失真变化规律,确定混叠失真不可感知的条件下对应的最小频域分辨率。实验验证表明,子带的数量为318时所对应的频域分辨率即为实现无感知混叠失真的最小频域分辨率。并且本文在该频域分辨率下提出基于矩阵分解的对象编码方法,可以有效应对提高频域分辨率造成的参数编码码率增加问题。基于KAIST数据集的实验结果表明,与现有编码方法相比,本文方法可以以更低的码率实现更优的编码质量。(3)研究并提出多频域分辨率融合的对象编码方法基于非负矩阵等降维压缩方法可以降低因提高频域分辨率而增加的参数编码码率,但是这些算法需要基于完整的信号频谱或参数矩阵进行处理,不适用于流媒体等实时应用场景。针对这一问题,本文根据人耳感知特性提出具有感知差异性的子带划分方式;并且提出基于当前帧信号实现编解码操作的多重频域分辨率融合的音频对象编码方法,根据对象能量的联合分布状态切换频域分辨率,进而实现以相对较低的编码码率实现无感知混叠失真的对象编码。基于通用音频数据集实验验证结果证明,与现有方法相比,本文方法可以在不明显提升码率的条件下,提高对象信号编码质量,且主观音质提升10%以上。多频域分辨率融合的编码方法为流媒体应用环境下实现多个音频对象信号的高质量高效率编码提供了新的解决方案。
其他文献
质子交换膜燃料电池(PEMFC)具有结构紧凑、能量转换效率高、零排放等优点,近年来得到快速发展,但由于其使用昂贵的Nafion膜以及Pt基贵金属催化剂,该类燃料电池造价高昂,大规模应用受到严重限制。碱性聚电解质燃料电池(APEFC)的工作环境为碱性,理论上其核心组件均可使用较为廉价的材料,为降低燃料电池的造价提供了可能。目前,APEFC的发展面临许多重要挑战,其中亟待解决的关键问题是发展高性能的全
祭文是礼仪活动中人与鬼神互动的告祝文本,在历史发展中逐渐以表达情感或思想主张见长,兼具礼仪功能和文学价值。论文以明清时期的祭文为研究对象,通过对明清祭文的文本整理、分析,深入到礼仪文化与各社会阶层的历史和内涵之中。在传统文学研究基础之上,侧重发掘明清祭文所具备的社会、思想价值。根据祭文的功能与对应的社会领域,划分出国家礼仪祭文、儒家士人祭文、民间祭文等类型,主要探讨明清时期祭文所反映的社会思潮或历
基因组的不稳定性与发育缺陷、过早衰老、慢性病、癌症以及抗感染能力下降均具有密切的关系。因此,保证基因组的稳定性对于维持人类健康具有重要的作用。人体内或者所生存的外部环境中存在着各种各样的不利因素使细胞内基因组DNA发生不同类型的损伤,比如双链和单链断裂、碱基损伤等,进而导致基因组不稳定。DNA断裂位点精准、高效的修复对于保证基因组稳定性具有非常重要的作用。在生物体内,DNA双链断裂(DSBs)是最
人群定向是通过对用户的行为,找出具有共同特征的潜在用户集合。为了能够帮助企业或广告主挖掘社交网络中潜在用户,本文针对复杂的社交网络关系,进行了不同网络拓扑结构下的潜在用户挖掘研究。本文针对复杂网络的不同拓扑结构,分别就基于用户行为关系网络、基于位置与行为关系的网络和基于兴趣标签与行为关系的网络中的用户挖掘进行了研究,主要研究内容包括:1.基于行为关系网络的用户挖掘,本文重点研究了基于多种行为关系的
当前随着全球经济一体化的发展,越来越多的跨国企业开始将目光放到国际市场上,其通过在海外其他国家中设立子公司或跨国并购的方式来进行海外扩张,从而在国际市场上打造竞争优势。当前,企业的这种海外扩张行为得到了学术界和商业界的广泛关注。即使是对于跨国企业来说,他们绝大部分的生产经营活动却依旧是在母国市场中完成的,也就是说跨国企业具有很高程度的母国足迹。而跨国企业在母国市场上的经营情况是否能够对其后续的海外
胚胎是一个新生命的开始,胚胎发生和发育受到极其严格且精细的调控,以保证传宗接代正常进行。无论动物还是植物,胚胎都被母体组织层层包裹,多年来的研究揭示了胚胎发育过程中周围母体组织形成的微环境对胚胎发育至关重要,特别是早期胚胎发育极其依赖于这种微环境所传递出的发育信号。对动物胚胎的研究表明,母体-胚胎间存在着复杂的信号交流。母体组织发育缺陷或母源性信号分子异常会导致胚胎发育异常或胎源性疾病。植物胚柄连
虽然生成对抗网络(Generative Adversarial Network,简称GAN)已经被广泛应用于很多实际领域,但是GAN仍然存在缺陷导致无法生成高质量的模拟数据。虽然当前GAN的变体尝试解决这个问题,但是他们在实际运用中仍然存在不少问题。现存的GAN的变体或存在梯度负数(如WGAN)或者生成的数据仍然存在相同图片或者图片模糊等问题(如MGAN)。本文研究的对象主要是在三个方面,即如何解
自“大数据”的概念在2005年被提出以来,“大数据”在全球范围内的学术界和商业界掀起一股革新的热潮。空间大数据(SBD)特指具有空间信息的大数据。智能技术和传感器技术的快速发展使得空间大数据成为了目前最具价值的空间产品之一。SBD可以被分为对地观测大数据与人类活动大数据两类。目前,运用先进的技术手段从SBD中提炼知识已经成为学术界以及相关产业中的重要范式;SBD也在地球科学,城市学,环境科学等多个
当前,各国越来越重视空天地网络信息系统(GASNIS)的建设。GASNIS是以空中平台,包括空间站、高中低轨道的卫星、平流层的气球、有人或无人驾驶的飞行器;以及地面平台、包括地面站点或地面移动终端;水域平台,包括海洋观测船舶或有其他特殊任务的船舶为载体所组成。GASNIS是实时获取,传输和处理相关信息为主要任务的网络信息系统。其发展涉及到国家的政治,经济,军事以及民生等各个重要领域。GASNIS是
登革病毒属于黄病毒科黄病毒属的一个血清型亚群,根据其抗原性的不同可以分为5个不同的血清型。同一血清型中又可因为抗原性的差异分为不同的基因型。登革病毒是一种虫媒病毒,其主要通过埃及伊蚊和白纹伊蚊进行传播。登革病毒主要流行于热带和亚热带地区,在亚洲,太平洋群岛及中、南美洲等许多国家均已造成严重的威胁。登革病毒感染人体后主要引起登革热以及发病率和死亡率都很高的登革出血热和登革休克综合征。其中登革热的症状