垃圾网页检测的关键技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:weiyuanbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页作弊是指作弊者运用各种手段欺骗搜索引擎,使网页在搜索结果中获得高于其本身应得排名的行为。垃圾网页的泛滥严重危害了搜索引擎公司、合法网站和各类用户的利益,因此研究垃圾网页检测技术已成为一项艰巨而重要的任务。针对链接作弊,排序算法是一种有效手段。但由于Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低,且多数排序算法没有考虑网页内容特性,因此本文改进Anti-TrustRank和加权非信任值排序(Weighted Anti-TrustRank, WATR)算法,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即结合主题与链接的非信任排序(Distrust Rank based on Topic and Link integration,TLDR)。其中,主题相似度权重运用隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型计算,链接权重根据链接结构计算。实验结果表明,与Anti-TrustRank和WATR相比,TLDR算法能使网页得到更合理的非信任值,检测性能有明显的提高。针对内容和链接作弊,本文从Web信息源质量、Web内容质量和Web应用质量三个子维度量化了网页质量,从危害度特性和主题特性两方面量化了语义特征,并与内容和链接特征共同构建了区分度高的特征集。此外,分类算法常用来解决垃圾网页检测问题,但分类算法性能易受数据分布不均衡的影响,而离群点挖掘算法正适用于不均衡的情况。因此本文采用基于熵的离群点挖掘(Entropy-based Outlier Mining, EOM)算法,并设计了级联检测框架,将检测分为内容特性检测、链接特性检测和语义特性检测三级进行。通过多组对比实验表明,本文的质量和语义特征能有效提高检测性能,EOM级联检测框架检测性能较高,且在数据分布不均衡的情况下相对于分类算法更具优势。
其他文献
近些年来,全国乃至全世界各地的灾害和紧急性事件频繁发生,这使得应急通讯服务系统的研发变得迫切。本论文是以广东省教育部产学研专项“下一代宽带无线接入系统研制和网络应
随着互联网信息技术和电子商务产业的快速发展,线上购物成为一种方便、快捷、有吸引力的购物方式,得到了数以十亿计的网络用户的关注。其中,服饰类商品在电商行业中具有十分
随着车辆的普及和移动Ad Hoc网络技术的不断发展,车辆自组网(VANET,Vehicle Ad Hoc Network)逐渐成为新兴的研究领域,同时智能交通系统(ITS,Intelligent Transport System)也
近年来,人们对于信息安全的要求也越来越高,传统的身份识别方法,基于其自身固有的特点越来越不能适应社会发展的需求,存在着许多不稳定因素,正因如此,基于生物特征识别的技术
随着互联网技术的高速发展,互联网已成为国际化商业合作、信息交互和新技术发展最为重要的组成部分。作为网络技术基础的网络管理技术也在不断推陈出新。网络发展到现今阶段,
随着软件系统的规模越来越大,结构越来越复杂,为了更好的理解程序,为了更合理的开发软件,软件切片技术逐渐成为软件工程学中的一个研究热点。切片技术虽然得到了迅速发展,但
C语言是国际上广泛流行的计算机高级程序设计语言,在各类高等院校的计算机及相关专业中,C语言均被列为一门必修的基础课程。该课程考核中使用的传统手工阅卷已经逐渐走向计算
随着基于B/S的多层Web体系结构的发展,Web应用软件开发己经成为主流,Web应用软件开发过程中一项重要的工作就是选择和确定系统开发架构。提高软件质量、适应不断变化的业务需
在计算机支持协同工作(Computer Supported Cooperative Work,CSCW)的环境下,动态协作关系是指项目成员在分工合作完成共同目标任务过程中结构及合作关系的演变,其中的合作关系
人脸检测(face detection)是指对于一幅任意给定的图像,采用一定的策略对其进行搜索以确定其中是否含有人脸,如果是则返回人脸的位置、大小和姿态。人脸检测是人脸识别、表情