语义-信号可伸缩图像编码方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:netdownloadfile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像/视频蕴含了丰富语义,是人类获取信息的主要来源之一。图像视频数据的迅速增长对信号压缩提出了更高要求,也使依靠有限人力理解海量图像成为一项挑战。计算机视觉技术的进步推动了机器分析的产业化,但机器视觉尚不具备完全取代人观察、决策的能力,人机共判场景将长期存在。在实际应用中,图像/视频多以压缩后的形式服务于存储、传输和分析,因此,图像/视频编码需要兼顾人眼视觉和机器视觉。传统图像编码致力于在有限码率下,面向人眼视觉最小化信号失真;但编码引入的信息损失容易影响机器分析精度。面向机器视觉的图像编码致力于在有限码率下最小化语义失准,通过压缩表征图像语义的特征,保证了码流面向机器分析任务的可用性;但基于机器特征往往难以重建图像。本文综合了上述两类编码方法在信号保真和语义保真上的优势,提出了一种语义—信号可伸缩的图像编码新框架。在所提出的可伸缩编码框架中,首先通过深度可逆变换将图像表示为语义特征,同时保证了特征和图像可以双向映射;接下来引入特征解耦约束,增强了特征区分度和可逆变换面向语义—信号可伸缩的图像信息结构化表示能力;最后设计了多特征联合分层编码,在压缩时联合优化码率、信号失真和语义失准,探索了兼顾人机视觉的图像编码中的若干新问题。论文主要工作及创新之处如下:·提出了面向语义—信号可伸缩的可逆变换。针对现有图像表示方法难以兼顾能量不变和语义集中的问题:一方面,将非线性网络与传统提升结构结合,通过堆叠多层变换,实现了将图像语义抽象为特征表示;另一方面,利用提升结构的计算可逆性,保证了图像和特征双向映射。为了实现语义—信号可伸缩,对可逆变换进行任务驱动的优化,将图像信息分布到多分辨率特征中,以深层特征表征图像语义,以浅层特征表征图像内容和结构特性,通过渐进增加特征可以丰富语义粒度并无损重建图像。结果表明,该方法能够面向语义分析任务对图像进行结构化表示。·提出了面向语义—信号可伸缩的特征解耦。针对可逆变换中缺乏对特征区分度显式约束的问题:将包含图像信息量较少的语义标签作为一种弱监督约束,研究了特征解耦技术。一方面,针对表征图像信号级特性的浅层特征,提出了基于生成对抗网络的信号解耦约束。针对表征图像语义级特性的深层特征,提出了基于双向映射的同质特征交互重建约束和基于变分自编码器的异质特征紧凑表示约束。此外,本文还构造了仿真数据以在有监督情形下评价解耦效率。结果表明,该方法降低了特征间的信息耦合。·提出了面向语义—信号可伸缩的多特征联合分层编码。针对压缩需要兼顾人机视觉需求的问题:在对图像进行结构化表示和特征解耦的基础上,提出了多特征联合分层编码模型框架。设计了分辨率自适应的特征压缩单元以实现对维度各异的特征进行单层编码;设计了特征层间预测单元以减小层间冗余、提高联合压缩效率;设计了后处理单元以提升图像的重建效果;提出了率—失真—失准联合优化策略,对压缩网络参数以端到端优化的方式进行协同更新。结果表明,该方案实现了语义—信号可伸缩编码,码流用于机器视觉的分析精度高,且重建图像主观质量优于BPG等方法。基于以上设计,可以面向人机视觉对图像进行有损编码。码流具有部分可解码性,通过渐进解码可以支撑由粗粒度到细粒度的机器视觉任务,并逐渐恢复出图像。在多个数据集上的测试结果证明了所提出方法的有效性。本文提出的语义—信号可伸缩图像编码将图像表示和联合编码相结合,为面向人机共判场景进行图像压缩探索了一条新方向。
其他文献
量子密钥分发(Quantum Key Distribution,QKD)是一种结合量子力学和经典密码学的具有信息论安全的密钥分发技术,其在理论和实践上的多年发展以及存在的安全优势使得QKD技术成为量子保密通信领域最为成熟的技术。我国近些年在QKD的实验和应用领域也发展迅速,“墨子号”、“京沪干线”等诸多重大成果以及在此基础上的世界首个天地一体化QKD网络的成功搭建,都标志着QKD技术规模的逐渐扩展
等离子喷焊(PTAW)是用焊接的方法将具有耐磨、耐蚀等特殊性能的合金粉末材料熔化在基材表面的一种表面工程技术,它具有成本低、材料利用率高、生产效率高等优点,广泛应用于机械、冶金、能源、航空航天、装备制造等诸多行业的关键件表面强化和再制造加工。等离子喷焊过程熔池温度是实时变化的,在热输入量调整不及时的情况下,容易出现合金粉末材料及基材温度过冷或过热现象,导致喷焊层性能的明显差异,产生喷焊层与基体熔合
MXenes,一类新型的层状二维过渡族金属碳化物、氮化物和碳氮化合物,作为插层型赝电容电极材料被广泛地应用于能量存储领域。Ti3C2Tx作为被研究最多的超级电容器电极材料具有高导电率、良好的亲水性、稳定性和大的层间距。虽然Ti3C2Tx作为超级电容器电极材料时,倍率性能出色并且长循环稳定性优异,但是其比容量仍有提升空间。使用具有高比容量的材料与Ti3C2Tx进行复合,可以有效提升Ti3C2Tx的比
人体行为识别技术得到了越来越广泛的应用,例如用户认证、老年人日常行为监测以及跌倒检测等。现有的行为识别方法主要基于摄像头和可穿戴传感器。这些方法虽然能实现较高的识别率,但在识别动作的过程中不可避免地侵犯了用户的隐私。基于摄像头的行为识别方法在识别过程中会捕捉用户清晰的长相信息,基于可穿戴传感器的方法在识别过程中会收集用户的生理信息,如心跳或脉搏等,这些都会带来严重的隐私泄漏问题。近些年随着WiFi
癌症极大程度地威胁着人类的健康。然而,传统的治疗方式难以达到预期的治疗效果,而且还伴随着很多副作用。因此,如何彻底治愈癌症仍然是当下研究的热点。纳米技术的发展为人类攻克癌症带来了曙光。基于纳米材料的新型治疗方式可以高效、特异性地杀死肿瘤细胞。其中,光热治疗因微创、高度的时空可控性、副作用小等优势受到了广泛关注。此外,集成像与治疗功能为一体的光热纳米诊疗剂可以实现成像导航的治疗,从而改善预后。然而,
回音壁模式(WGM)谐振腔具有紧凑的结构、超高品质因子、高能量密度等特点,以它为核心可以开发出很多高性能的光电子器件。近十年在WGM谐振腔中产生的光学频率梳,提供了一种性能更优越、实现方式更简便、更具有小型化潜力的光频梳实现方式。基于WGM谐振腔产生的耗散克尔孤子光频梳已经在光谱学、计量学、超精密测量等领域展现出巨大的应用价值。本文针对大尺寸超高品质因子晶体谐振腔加工及其应用中的一些技术难题,开展
本论文研究八元数超复分析及其应用。八元数在G2几何和粒子物理中展现出了非常重要的作用。这也激发了八元数超复分析近期的迅猛发展。针对八元数超复分析的几个关键问题,本文进行深入细致的研究。这包含以下几个方面:1.超复分析与复分析之间的关系。2.八元数Fourier变换及其实Paley-Wiener定理。3.八元数Hermitian分析中的Witt基。4.八元数Hilbert空间。我们的主要结果如下:1
本文研究处于中国制度环境下的独立董事功能的发挥和内在机制,及其独立董事对上市公司的贡献。传统观点认为,独立董事制度通过监督和咨询的双重功能提升公司价值。2001年中国证监会引入独立董事制度,要求独立董事对上市公司重大事项发表独立意见,希望借此规范公司治理、保护中小股东的权益。然而,独立董事制度在中国发展的20年中,社会上对独立董事的评价褒贬不一。独立董事制度发展于西方成熟市场(比如美国),而中国是
冻结步态是一种偶发性下肢运动障碍症状,开展准确及时的参数化监测对帕金森病等相关疾病的临床诊断、病情评估和康复治疗方案的制定具有重要作用。由于冻结步态的偶发性,在实验室环境下难以捕捉,目前依赖于量表的主观临床评估方法无法准确把握冻结步态的严重程度及时机,影响疾病诊疗,甚至可能导致漏诊或误诊。因此需要发展一种能够融入生活的冻结步态客观监测方法。惯性测量单元(Inertial Measurement U
随着无线通信、大数据等技术的发展,物联网设备的数量及其计算处理需求急剧增加,传统的以云端集群为核心的集中式处理模式在传输、计算、安全、能耗等方面凸显弊端。针对这些现实困境,边缘计算应运而生。它将计算资源靠近数据源与用户,就近提供低延迟、高安全、低成本的云边协同计算服务。相较于云计算,边缘计算优势明显,它具有更短的系统服务时延、更强的近用户端处理能力、更低的网络传输负载、更安全可靠的分散式服务架构。