论文部分内容阅读
作为一种新型的信息隐藏技术,无载体信息隐藏技术近年来逐渐成为信息隐藏领域的研究热点之一。基于图像的无载体信息隐藏的重要特点是不修改原图像的任何数据,而是构建图像和隐秘信息之间的映射关系,或者利用秘密消息构造图像实现信息隐藏。为了进一步降低受到攻击和分析的可能性,不引起第三方注意,无载体信息隐藏通常采用存在网络上的、热门图像作为载体。热门图像,一般依附于Internet文本信息而存在,比如热门新闻,热门微博等。然而数以亿计的图像分布在Internet的各个角落,因此如何有效地从Internet中采集到热门图像成为了无载体信息隐藏的一个重要的问题。目前,按照特定的策略持续进行资源发掘和收集的功能模块比较多,网络爬虫是公认最有效的工具之一。又由于基于图像的无载体信息隐藏的一个重要指标就是不引起非合作方的怀疑。在通过传递图像的组合来表示秘密消息时,若所选图像在内容等方面存在逻辑的不合理性时,无载体信息隐藏极容易引起非合作方的怀疑,对所传递的图像进行攻击。所以在构建图像组合时必须是逻辑、内容合理的图像进行组合,即在无载体信息隐藏时,应该将内容相关的一组图像作为备选图像,这样就会涉及到图像相似度的计算和图像的检索。因此,本文综合运用主题网络爬虫、网页信息抽取、文档去重、检索等技术,设计并实现一个热门图像的采集系统,为无载体信息隐藏构建完备的图像集合。本文实现的热门图像采集系统包括网页数据采集模块、网页信息抽取与分析模块、图像检索模块等。其中,网页数据采集模块是对Heritrix爬虫进行扩展,负责采集目标网站的网页;网页信息抽取分析模块主要是利用抽取规则和Jsoup解析器,将所需信息从网页中抽取出来,并对网页进行去重,计算出热门新闻;图像检索模块是通过Lucene索引工具,将颜色特征和纹理特征建立索引,达到图像相似度检索的功能。论文重点分析了上述各模块的实现机理,并利用相应的开发工具实现了各个模块,从实测结果看,论文所构建的热门图像采集系统能自动收集热门图像,并根据图像的基本特征,为所收集的图像建立索引,满足了实际项目的需求。