隐藏型垃圾网页检测研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xiaowen51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾网页是指网页制造者采用迷惑或欺骗搜索引擎的手段,使得网页在检索结果中的排名高于实际排名的行为。这种页面不仅影响搜索引擎检索的准确率和效率,也严重恶化了用户的搜索体验,被公认为互联网检索面临的最大挑战之一。在垃圾网页作弊技术中,隐藏型作弊具有隐蔽性、欺诈性和难以检测等特点,已成为垃圾网页检测中一个亟待解决的问题。本文综述了目前国内外隐藏型垃圾网页检测技术的研究现状,介绍了隐藏型作弊技术的类型和特点。总结归纳伪装型垃圾网页的现象,详细介绍伪装型垃圾网页的实现机理以及国内外针对隐藏型垃圾网页的检测技术。本文根据己总结的伪装型垃圾网页的七种现象,提出了基于类型的Cloaking检测算法,设计了伪装型垃圾网页的检测系统框架。该框架包括数据集获取、网页特征信息提取、Cloaking检测和文件管理四大模块。其中数据集获取模块对模拟搜索引擎爬虫和用户浏览器获取搜索结果进行了详细的介绍,网页特征信息提取模块对特定标签以及内容和链接特征的有效性进行了详细的分析,Cloaking检测模块实现已提出的Cloaking检测算法,选取朴素贝叶斯算法对复杂Cloaking进行分类检测,并与几种常见的分类算法进行实验结果对比。文件管理模块实现对系统文件的管理。本文构建了中文垃圾词汇库和伪装型垃圾网页的中文样本数据集,通过实验对伪装型网页检测算法进行验证,并对实验结果进行了详细的分析。
其他文献
现代信息技术的发展以及各种图像处理软件的出现,使得伪造图像和篡改图像变得越来越容易,如何鉴别收到的图像是否是原始图像,是否经过篡改,是否是人为伪造,通过各种图像采集
李群机器学习既继承了流形学习的优点,又充分利用了李群的代数结构和几何结构的数学本质,自提出以来就引起了许多研究者的关注。本文是在李群机器学习的理论框架上,以李群机器学
嵌入式远程监控系统是一种以嵌入式技术、视频编码技术及网络传输技术为核心的新型视频监控系统,它在监控系统的实时性、网络化、小型化等方面比传统远程监控系统有着突出的
随着网络应用的迅速扩张,IPv4地址资源枯竭的问题已无法回避亦不可调和,发展下一代网络IPv6已成为必然而紧要的工作。可以预见,在未来几年里,全世界将迎来IPv6网络规模化部署
信息技术的迅猛发展和广泛应用,为现代社会的生产和生活提供了巨大的便利,信息安全和隐私保护的问题也变得越来越突出。访问控制是实现信息安全的重要技术之一,它主要通过限制合
图像分类是当前计算机视觉研究的热点。该问题涉及两个重要的因素:一是图像的表示;二是分类算法的设计。在图像的表示上,词袋模型在信息检索领域的成功应用启发计算机视觉研究
近几年来,云计算技术已成为IT界最热门的研究领域,它改变了企业传统的IT技术架构和开发部署模式。通过网络方式提供给用户需要的应用平台环境,快速平滑地将用户的应用迁移到云中
作为信息安全的热点研究领域之一,安全多方计算(Secure Multiparty Computation)主要研究多方合作计算问题,即分布式网络中互不信任的两个或者多个参与者合作执行某种计算任
膜计算(又称P系统)是从生命细胞的结构与功能以及组织和器官中细胞群的协作中抽象出来的计算模型。P系统是一类分布式、并行性计算模型。从结构上看,P系统有三种形式:细胞型P系统