基于媒体特征分析的自适应音视频水印关键技术研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:liu_shuangde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术、网络技术的发展,多媒体数字产品的复制与传播变得非常便捷。相应的,盗版行为也日益猖獗,给版权商带来了不可估量的经济损失。因此,急需有效的版权保护措施来遏制盗版行为。在这一背景下,学者们提出了数字水印技术,经过近年来的快速发展,已成功应用于多媒体数字产品的版权保护,挽回了盗版带来的经济损失。因而,研究数字水印技术,进一步提升其版权保护效果,是一项具有重要理论意义与应用价值的工作。音视频作为视听媒体的代表,其版权保护是数字水印研究的重点,研究者们已提出了多种音视频数字水印方法。但现有方法对音视频信号在时-频域中的变化特征缺乏充分的研究与应用,导致水印抗时域同步攻击、几何变换等攻击能力不足,水印鲁棒性和不可感知性均有待提升;同时,对新发展起来的无损压缩音频、3D视频研究不足,少有针对性数字水印算法。为解决这些问题,本文基于音视频特征信息分析,从以下两个方面提出解决思路。第一,分析音视频信号时-频域变化规律,根据规律构建特征信息作为信号自适应分段标志、确定水印嵌入位置;水印嵌入位置随特征信息变化而改变,而各类攻击对特征信息影响小,水印抗同步攻击、几何攻击等攻击鲁棒性得到提升。第二,将水印嵌入与提取过程同音频信号变化特征、编解码特征、视频角点特征、3D视图渲染特征相结合,充分运用特征信息来提升水印不可感知性和抗各类攻击的鲁棒性。根据解决思路,本文提出了以下解决方案:依次构建在各类攻击下鲁棒性更强的音频节拍、音频显著状态、视频角点、视频对象动作等特征信息作为信号分段、水印嵌入位置选择或水印认证标志,实现水印抗同步攻击鲁棒性的提升。针对有损压缩、无损压缩音频,2D、3D视频,将特征信息构建与水印嵌入、提取方法相结合,分别设计双通道音频水印算法、双域音频水印算法、与无损压缩编码相结合的无损音频水印算法、与视觉密码相结合的2D视频‘零水印’算法、与3D渲染模式相结合的3D视频水印算法,各有侧重地提升水印鲁棒性和不可感知性。根据解决方案,具体算法实现如下:一、提出了基于信号自适应分段与嵌入强度优化的双通道音频水印算法。利用自相关检测法对音频信号进行自适应分段,作为水印嵌入位置选择标志,提高水印抗同步攻击鲁棒性。构建音频信号双通道特征信息,设计水印双通道嵌入与提取方法,降低水印嵌入强度,提高水印不可感知性。二、提出了基于离散小波包变换的双域音频水印算法。设计更具鲁棒性的音频信号自适应分段方法,水印具备更强的抗同步攻击能力;引入心理声学模型,将音频信号划分为听觉掩蔽域和被掩蔽域,设计符合掩蔽效应的双域水印嵌入位置选择方法、水印嵌入强度自适应控制方法,在双域中同时进行水印嵌入与提取,既提高水印的鲁棒性,又能保障其不可感知性。三、提出了针对MPEG-4 SLS格式的无损压缩音频水印算法。构建MPEG-4 SLS(Scalable Lossless Coding)编码整型修正离散余弦变换(Integer Modified Discrete Cosine Transform,Int MDCT)系数显著状态特征信息作为水印嵌入位置选择标志,增强特征信息鲁棒性,实现水印抗同步攻击鲁棒性的提升;设计与无损编解码技术相结合的水印嵌入与提取方法,提高水印抗各类信号处理攻击的鲁棒性,同时应用听觉掩蔽效应实现对水印嵌入强度的有效控制。四、提出了基于时-空域特征和视觉密码的视频‘零水印’算法。设计有限状态机进行关键帧选择,在关键帧中构建时-空域角点特征信息作为水印认证信息元素,提高特征信息抗同步攻击、色彩与几何攻击鲁棒性。将特征信息与视觉密码相结合,生成鲁棒性水印认证信息,在版权机构进行注册,在不改变视频信号的前提下实现水印嵌入。五、提出了基于深度图像渲染(Depth-image-based rendering,DIBR)的3D视频水印算法。与DIBR特征进行融合,构建视频帧对象动作特征信息作为水印嵌入位置自适应选择标志,增强特征信息鲁棒性,提升水印抗深度信息变化、几何变换攻击鲁棒性;设计同DIBR渲染过程相结合的水印嵌入与提取方法,提升水印鲁棒性和不可感知性。综上所述,本文针对现有音视频水印方法存在的问题,基于特征信息分析对音视频数字水印关键技术进行研究。分析音视频信号时-频域变化特征与鲁棒性特征信息提取方法,提出了问题解决思路,给出了解决方案。实现了在小波域、时空域、压缩域中对有损压缩音频、无损压缩音频、2D视频、3D视频进行水印嵌入与提取,有效增强了水印鲁棒性和不可感知性,为水印算法的应用打下了更坚实的基础。
其他文献
图像和文本是当今两种主要的信息载体,其中图像具有生动形象的特点,而文本概括性强,能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述,其在图像检索、人机对话、盲人导航、自动安防等应用中被广泛使用。本文基于深度学习对图像字幕自动生成进行研究,具体的工作包括基于全局注意力机制的图像字幕生成、基于词性先验的图像字幕生成、基于对偶学习的图像字幕生成、基于层次主题网络的故事生
人脸识别作为人工智能的典型应用之一,具有重要的实用价值和研究意义。近年来,基于深度卷积神经网络的人脸识别技术取得了突飞猛进的发展,但主要集中于二维可见光人脸识别的研究,在真实无约束场景中仍然面临许多挑战和难题。随着人脸识别应用的推广和传感器技术的发展,异质人脸识别需求应势而生且日益增大。但异质人脸图像间显著的外观变化,使现有人脸识别系统面临识别精度大幅下降的问题。本文对异质人脸识别问题及其解决方案
心音信号和心电信号作为常见的医疗时序数据,具有易采集、价格低廉、无创无损及重复性好等特点,在医学临床中被广泛应用于疾病预防、初步诊断及病情的长期监测。对这些医学时序信号进行准确处理与分析,可更好地协助医生把握病情,制定疾病预防和治疗方案,从而提升全社会的整体健康水平。经过几十年的发展,传统信号处理方法对心音信号和心电信号的分析与应用已取得长足进步,但处理该类时序数据时仍然面临诸多挑战。尤其是在面对
现代图形学应用的飞速发展对超大规模复杂场景绘制、高分辨率显示呈现、高真实感用户体验以及实时绘制效率提出了愈加严峻的挑战。尽管计算机硬件性能在近年来得到了极大提高,但仍然无法满足越来越高的需求。作为并行计算在图形学领域的具体运用,并行图形绘制系统成为解决上述问题的有效方案之一。但是多节点间的绘制任务分配一直是制约并行图形绘制系统整体性能的瓶颈,因此,研究如何实现绘制负载平衡成为影响最终绘制效果的关键
由于互联网多媒体技术的快速发展、智能手机的广泛使用以及社交网络的不断普及,人们能够随时随地在互联网上分享有趣的内容,使得互联网上不同模态的多媒体数据(如文本,图像和视频等)呈现爆炸性增长、海量性集聚的特点。如此大规模的数据标志着多媒体大数据时代的到来,同时给基于多模态学习的研究和应用带来了新的机遇和挑战。随着以深度神经网络为代表的人工智能技术的迅猛发展,如何基于深度神经网络模拟人类大脑的认知和理解
深度学习又称为深度神经网络,是人工神经网络的一种,是一种通过堆叠多层非线性变换方法对高复杂性数据进行建模的算法。在图像处理领域,深度学习主要是指深度卷积神经网络(Deep Convolutional Neural Networks,简称DCNN)。人工神经网络的概念自上个世纪四五十年代被提出以来,几经发展和沉寂,在本世纪初又开启新一轮发展热潮,展现出强大的生命力。图像目标检测的目的是判断图像中是否
计算机科学融合音乐学并推动音乐学自动化智能化发展催生了两个大的研究方向:音乐信息检索和音乐生成。其中,音乐检测是音乐信息检索领域的一项关键任务,它聚焦于研究如何从音频中检测出音乐事件及发生的位置;音乐生成是人工智能在艺术创作方面的一项探索,它关注于研究能让计算机自动进行音乐创作的算法。随着数字音乐数量的与日俱增,神经网络方法善于学习海量数据以及具备强大建模能力的特点使其成为近年来音乐检测和音乐生成
三维图形绘制在游戏娱乐、虚拟现实、科学计算可视化等众多领域有着广泛应用,而且在实时和真实方面的绘制要求越来越高。近年来,软硬件的计算性能得到了很大提升,但是面对数据规模的日益增长,大规模数据的实时绘制面临巨大挑战。本文主要针对体数据和地理地形数据的真实和实时绘制技术展开研究。对于精度高、体量大的体数据,三维可视化计算量大,同时增加光照计算更加重了计算负担。大规模地理地形数据一直存在如何高效处理和绘
神经科学研究证明,生物神经网络之间的细胞是通过神经元的动作电位(发放的脉冲)来进行相互通信的。因此,更具有生物可塑性和强大信息处理能力的第三代神经网络:脉冲神经网络(杓杰杩杫杩杮杧李来杵杲条杬李来杴杷杯杲杫,杓李李)受到了研究者的广泛关注。与传统的基于频率的神经网络不同,杓李李能够处理和提取脉冲信号中编码的时间动态特征,从而使其更加具有生物可塑性,且计算能力更强,功耗更低,在未来的移动智能领域具有
近年来,以软件代码为载体的网络安全问题频频发生,软件代码同源判定作为解决网络攻击溯源等安全问题的共性关键技术变得尤为重要,准确定位软件代码来源已成为各方关注的焦点。由于当前软件代码具备运行平台多样、变形手段繁多、表现形式复杂等多形态特点,导致其同源判定极为困难。如何有效的发现多形态软件代码同源,对增强我国网络空间安全的防护力、威慑力至关重要。面向多形态软件代码的同源判定,首先需厘清软件代码同源的概