基于网络爬虫的数字隐写图像采集系统设计与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:danaxiao99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种新型的信息隐藏技术,无载体信息隐藏技术近年来逐渐成为信息隐藏领域的研究热点之一。基于图像的无载体信息隐藏的重要特点是不修改原图像的任何数据,而是构建图像和隐秘信息之间的映射关系,或者利用秘密消息构造图像实现信息隐藏。为了进一步降低受到攻击和分析的可能性,不引起第三方注意,无载体信息隐藏通常采用存在网络上的、热门图像作为载体。热门图像,一般依附于Internet文本信息而存在,比如热门新闻,热门微博等。然而数以亿计的图像分布在Internet的各个角落,因此如何有效地从Internet中采集到热门图像成为了无载体信息隐藏的一个重要的问题。目前,按照特定的策略持续进行资源发掘和收集的功能模块比较多,网络爬虫是公认最有效的工具之一。又由于基于图像的无载体信息隐藏的一个重要指标就是不引起非合作方的怀疑。在通过传递图像的组合来表示秘密消息时,若所选图像在内容等方面存在逻辑的不合理性时,无载体信息隐藏极容易引起非合作方的怀疑,对所传递的图像进行攻击。所以在构建图像组合时必须是逻辑、内容合理的图像进行组合,即在无载体信息隐藏时,应该将内容相关的一组图像作为备选图像,这样就会涉及到图像相似度的计算和图像的检索。因此,本文综合运用主题网络爬虫、网页信息抽取、文档去重、检索等技术,设计并实现一个热门图像的采集系统,为无载体信息隐藏构建完备的图像集合。本文实现的热门图像采集系统包括网页数据采集模块、网页信息抽取与分析模块、图像检索模块等。其中,网页数据采集模块是对Heritrix爬虫进行扩展,负责采集目标网站的网页;网页信息抽取分析模块主要是利用抽取规则和Jsoup解析器,将所需信息从网页中抽取出来,并对网页进行去重,计算出热门新闻;图像检索模块是通过Lucene索引工具,将颜色特征和纹理特征建立索引,达到图像相似度检索的功能。论文重点分析了上述各模块的实现机理,并利用相应的开发工具实现了各个模块,从实测结果看,论文所构建的热门图像采集系统能自动收集热门图像,并根据图像的基本特征,为所收集的图像建立索引,满足了实际项目的需求。
其他文献
目前,基因工程中存在的主要问题是外源基因的表达水平、表达部位等问题,因此,作为调控基因表达关键元件之一的启动子的研究便成为基因工程研究的关键。启动子有组成型启动子(constitutive promoter)、组织特异性启动子(tissue-specific promoter)和诱导型启动子(inducible promoter)三种。迄今为止,植物表达载体中应用最广泛的是CaMV 35S组成型启
本文通过对荣华二采区10
期刊
驾驶员疲劳驾驶是交通事故频发的重要原因之一,驾驶员疲劳检测技术可以有效判断驾驶员是否进入疲劳状态,当判断驾驶员进入疲劳状态时可以进行预警,提示驾驶员保持清醒状态,从
期刊
期刊
本文通过对荣华二采区10
期刊