Web Spam检测及网页排序算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Orange_zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web Spam是一种不考虑网页的真正价值,却有意实施不公正的相关性或重要性的排名行为。它的出现不但威胁到搜索引擎的公正排名,同时还严重影响用户的搜索体验。如何通过分类来检测Web Spam,以及如何通过网页排序得到内容相关的网页已成为目前的研究热点。本文针对Web Spam分类和网页排序算法进行了深入的研究。主要工作如下:第一,首先分析了内容特征属性和链接特征属性对Web Spam的影响,针对单纯利用内容或链接作为特征属性分类的不足,提出了一种新的特征属性。该特征属性基于网页内容和链接之间的关系,通过计算两个网页中不同元素的相似度来获得。然后,将内容特征属性、链接特征属性和新特征属性融合产生一种新的分类特征属性。最后,根据Web Spam数据集不平衡的特点,将代价敏感方法与决策树算法C4.5结合用于Web Spam分类。通过数据集WebSpam-UK2007进行实验,分类结果优于决策树算法C4.5,验证了该分类算法的可行性和有效性。第二,针对经典网页排序算法PageRank偏重于旧网页以及容易发生主题漂移的缺点,提出了一种改进的PageRank网页排序算法。改进算法针对偏向旧网页的缺点构建了一个时间权重因子;针对算法容易发生主题漂移的缺点构建了一种相似度权重因子;并在算法中加入了一个具有抗击链接垃圾页面功能的Web Spam抗击因子。通过实验与经典PageRank算法进行了比较,改进的PageRank网页排序算法在搜索到相关的网页方面得到了明显的提升。
其他文献
近年来,互联网技术飞速的发展,一些实时的、无限的、连续的、有序的数据应用范围越来越广,这种形式的数据被称之为数据流,它应用于传感器数据分析、互联网流量监控、金融行情分析
无线传感器网络技术是近几年来在信息获取领域研究的一个热点,它融入了信号分析、电子信息工程、无线通信技术、无线传感器技术、计算机信息处理技术等多个领域,具有明显的众多
随着传统互联网在扩展性、移动性和安全性等方面面临着越来越巨大的挑战,软件定义网络(software-defined networking,SDN)随之应运而生。OpenFlow技术作为SDN体系结构的实际
自然科学、工程技术、社会科学中存在着大量的偏微分方程(PDEs).然而,许多PDEs的真解很难得到,或以实用的表达式表出.因此,为获得PDEs的近似解,发展高性能的PDEs数值解法是十分必
目前,企业级用户的广域网传输问题主要来自两方面,即链路与应用。链路问题包括带宽受限、网络时延大、丢包率严重等;应用的问题则集中于大数据量的传输,以及应用自身在广域网
语音合成是当今计算机智能应用领域的研究热点,目前它越来越广泛地应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益。随着当今社会计算机技术的快速发展,语
基于Handel-C语言的算法硬件化技术是一种使用高级语言进行算法设计,并通过硬件完成算法实现的技术。该技术可快速将已有成熟算法的C语言程序转化为硬件实现,也可高效开发全新
网格技术是将所有可用于共享的资源,通过网络连接起来,并将它们转化成一种计算能力,对资源进行整合,从而解决信息孤岛问题。用户将任务提交给网格后,需要对任务进行合理的分
随着图像处理在医学领域上的蓬勃发展,以计算机技术为核心的细胞检测技术在其发展上显得越发重要。作为细胞检测极为重要的一步,细胞分割技术的研究中,如何科学合理、高效快捷地