论文部分内容阅读
随着计算机和网络技术的飞速发展,视频和图像等多媒体数据呈几何级数增长,同时人们对这些视觉媒体内容的需求也越来越多,越来越广泛,因此如何从浩如烟海的数据资源中实现信息检索逐渐成为目前的研究热点。但是现有的检索技术多是基于底层视觉特征的检索,与人们所能理解的高层语义概念相去甚远,这严重地影响检索的实际效果。多媒体数据所包含的语义内容无法用底层视觉特征来准确表述,即在底层视觉特征和包含的语义之间存在着“语义鸿沟(Semantic Gap)”,如何跨越“语义鸿沟”,有效的提取语义信息,已经成为多媒体研究领域中一个亟待解决的问题。首先,论文阐述了基于内容的信息检索技术(Content Based Information Retrieval,CBIR)的研究和发展现状,介绍了语义提取研究的相关理论及当前常用的语义提取方法,包括基于机器学习的语义提取方法、基于反馈学习的语义提取方法和结合特定领域的语义提取方法等。论文研究并实现了两种典型的基于机器学习的图像语义提取方法,包括基于支持向量机(Support Vector Machine,SVM)的语义提取和基于一致语言模型(Coherent Language Model,CLM)的语义提取。实验结果表明,这两种方法对图像有较好的语义提取效果。其次,论文提出了一种基于模糊关联分类的视频语义提取方法,该方法引入模糊概念,解决了关联规则挖掘“边界过硬”问题;把关联分类规则挖掘看作约束优化问题,通过构造自适应惩罚亲和度函数,以提高评估抗体优劣程度的准确性;采用混合双变异算子,以获得更好的全局和局部搜索能力;采用老化算子,在保证种群多样性的同时减小了计算复杂度。论文将该方法用于视频运动语义和纹理语义提取,取得了令人满意的实验结果。最后,论文将高层语义应用到视频数字水印中,提出了一种基于视频语义的AVS(Audio Video coding standard)压缩域鲁棒水印方法,该方法利用获得的视频运动语义,在线生成动态语义水印;根据运动语义自适应确定感兴趣镜头,根据纹理语义自适应确定感兴趣I帧,根据人眼视觉掩蔽特性,选择运动剧烈和运动缓慢区域作为感兴趣区域,将水印嵌入在感兴趣I帧的亮度子块预测残差DCT中频系数上;利用视频纹理特征,自适应控制水印嵌入强度。实验和分析表明,该方法不仅对各种常规攻击鲁棒,而且对帧重组、帧内裁剪和帧删除等视频特有攻击表现出强的鲁棒性。论文最后对本文工作进行了总结,并提出了下一步研究探索的方向。