隐藏页面检测系统的研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lyxxlyxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展以及网络信息资源的飞速增长,人们对于网络的依赖性越来越强,对网络信息搜索的要求也愈来愈高,而搜索引擎成为了连接个人和网络资源的一个不可或缺的渠道。很多网站使用黑帽SEO来提高网站在搜索引擎结果中的排名以增加用户点击率,其中较为常见的一种黑帽SEO技术就是页面隐藏技术(Cloaking)。使用页面隐藏技术的网站对搜索引擎伪装其真实内容,当爬虫爬行到一个Web站点时,该站点对它返回一个经过定制了的页面,即网站对爬虫和普通用户返回不同的内容。针对以往检测方法中相似度检测准确度不高的缺点,本文提出一种基于网页三种特征的相似性检测优化算法,对网页中的文本、标签和URL元素特征进行提取,并分别比较相似度,通过基于阈值的方法分级过滤高相似度的网页,提高检测的准确度;更进一步,本文通过模拟五种不同角色的方法爬取页面,并利用提出的算法进行比较,不但可以判断是否隐藏,还可以识别具体隐藏页面的类型。其中,利用模拟JavaScript脚本解析的方法识别以往研究中并未解决的JavaScript跳转隐藏检测。围绕以上方法,本文实现了一个隐藏页面检测原型系统。该系统通过伪装爬虫HTTP请求头信息,调用内置JavaScript引擎,抓取网页缓存等方式获取五个版本的页面内容,然后对其应用本文提出的检测算法,对隐藏页面进行判断并识别。本文将该系统应用于雅虎搜索引擎,抓取搜索结果中的10万个URL进行检测,从中选取5000个作为样本数据集,并对其中1000个URL进行手动标记。本文采用了去重、白名单过滤、多线程等辅助方法对系统的时间性能进行了优化。通过对大量数据集的测试,本系统在算法准确度、隐藏页面的检测和识别能力、时间开销方面都取得较好的结果。特别地,系统目前可以判别User Agent隐藏、IP隐藏、Referrer隐藏和JavaScript隐藏。
其他文献
数据预测是指在分析现有数据的基础上估计或推测未来的数据的过程。随着Internet和数据库技术的迅速发展,数据预测方法及其应用研究已经越来越为人们所重视。目前,常用的预测方
传统的物资管理系统,由于采用人工手写票据的管理方式,不但工序繁杂、容易导致人为损失,而且人工和物流成本极高。产品结构在持续发展的企业规模的推动下日趋复杂,并且整个市场对
随着我国经济的不断发展,在日常生活和工业生产中产生的固体废物总量也在持续高速增长,这些固体废物种类繁多、性质复杂,给目前的固体废物监控管理工作带来极大的不便,传统的管理
无线传感器网络(Wireless Sensor Networks, WSNs)数据融合(DataAggregation),是指将多个传感器节点的数据进行处理,以消除数据冗余传输,并将融合结果发送到基站的一种技术。通过降
近几年,随着移动互联网技术和地理信息技术的发展,基于位置服务应用逐渐兴起,从而使得空间定位信息的数据量呈现以指数级增长。而在地理位置信息相关的空间数据查询中,RkNN (
系统拥有高的安全性和可靠性意味着工作人员的人身安全能够得到更好的保障,同时也可以提高经济效益和生产效率。容错控制(Fault Tolerant Control, FTC)能在系统发生故障的情
随着中国城镇化脚步的不断跨步,城市人流量及机动车等呈现爆炸式的增长,由此带来的一系列管理问题正给交警部门带来了前所未有的严峻挑战。过去十年,交警部门的信息化建设相
随着多媒体技术的发展,三维重建技术被广泛应用于电影特效、数字城市、三维游戏、人机交互、非物质文化遗产保护等领域。近年来,基于多视图的立体三维重建更是计算机视觉领域
随着信息技术的快速发展,云计算和重复数据删除技术也得到了迅速的发展。云计算凭借其强大的分布式计算能力以及低成本高可靠性的优势,在海量数据处理方面占据主导地位,但是Hado
云计算作为一种新的计算服务模式,通过互联网相连接,利用开放的技术和标准把硬件和软件抽象为动态的资源,对外以服务的形式提供给用户。但作为新兴发展领域,其大部分相关问题