Web Spam检测及网页排序算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：Orange_zz

【摘要】

：

Web Spam是一种不考虑网页的真正价值，却有意实施不公正的相关性或重要性的排名行为。它的出现不但威胁到搜索引擎的公正排名，同时还严重影响用户的搜索体验。如何通过分类来检

【作者】

：

于兵兵

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2012年期

【关键词】

：

Web Spam 决策树分类代价敏感 PageRank

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web Spam是一种不考虑网页的真正价值，却有意实施不公正的相关性或重要性的排名行为。它的出现不但威胁到搜索引擎的公正排名，同时还严重影响用户的搜索体验。如何通过分类来检测Web Spam，以及如何通过网页排序得到内容相关的网页已成为目前的研究热点。本文针对Web Spam分类和网页排序算法进行了深入的研究。主要工作如下：第一，首先分析了内容特征属性和链接特征属性对Web Spam的影响，针对单纯利用内容或链接作为特征属性分类的不足，提出了一种新的特征属性。该特征属性基于网页内容和链接之间的关系，通过计算两个网页中不同元素的相似度来获得。然后，将内容特征属性、链接特征属性和新特征属性融合产生一种新的分类特征属性。最后，根据Web Spam数据集不平衡的特点，将代价敏感方法与决策树算法C4.5结合用于Web Spam分类。通过数据集WebSpam-UK2007进行实验，分类结果优于决策树算法C4.5，验证了该分类算法的可行性和有效性。第二，针对经典网页排序算法PageRank偏重于旧网页以及容易发生主题漂移的缺点，提出了一种改进的PageRank网页排序算法。改进算法针对偏向旧网页的缺点构建了一个时间权重因子；针对算法容易发生主题漂移的缺点构建了一种相似度权重因子；并在算法中加入了一个具有抗击链接垃圾页面功能的Web Spam抗击因子。通过实验与经典PageRank算法进行了比较，改进的PageRank网页排序算法在搜索到相关的网页方面得到了明显的提升。

其他文献

通用数据流管理原型系统TTSTREAM的设计与关键算法研究

近年来，互联网技术飞速的发展，一些实时的、无限的、连续的、有序的数据应用范围越来越广，这种形式的数据被称之为数据流，它应用于传感器数据分析、互联网流量监控、金融行情分析

学位

数据流数据流管理系统操作符查询处理概要数据结构历史数据存储

低能耗环状无线传感器网络路由协议的研究

无线传感器网络技术是近几年来在信息获取领域研究的一个热点，它融入了信号分析、电子信息工程、无线通信技术、无线传感器技术、计算机信息处理技术等多个领域，具有明显的众多

学位

低能耗环状拓扑休眠机制

云环境SDN/OpenFlow网络中安全可靠的网络控制方法研究

随着传统互联网在扩展性、移动性和安全性等方面面临着越来越巨大的挑战,软件定义网络(software-defined networking,SDN)随之应运而生。OpenFlow技术作为SDN体系结构的实际

学位

云计算SDN/OpenFlow网络流表规则一致更新DDoS攻击

高精度交替方向隐式差分法的理论与应用

自然科学、工程技术、社会科学中存在着大量的偏微分方程(PDEs).然而，许多PDEs的真解很难得到，或以实用的表达式表出.因此，为获得PDEs的近似解，发展高性能的PDEs数值解法是十分必

学位

偏微分方程数值解法高阶紧交替方向隐式法ADI格式外推算法

数据存储在广域网加速系统中的研究与应用

目前,企业级用户的广域网传输问题主要来自两方面,即链路与应用。链路问题包括带宽受限、网络时延大、丢包率严重等;应用的问题则集中于大数据量的传输,以及应用自身在广域网

学位

广域网加速Hash数据存储压缩率

基于半监督学习的汉语韵律短语预测研究

语音合成是当今计算机智能应用领域的研究热点,目前它越来越广泛地应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益。随着当今社会计算机技术的快速发展,语

学位

文语转换韵律短语预测条件随机场模型半监督学习互训练

基于Handel-C的算法硬件化方法研究

基于Handel-C语言的算法硬件化技术是一种使用高级语言进行算法设计，并通过硬件完成算法实现的技术。该技术可快速将已有成熟算法的C语言程序转化为硬件实现，也可高效开发全新

学位

Handel-C算法硬件化FPGA双边滤波器

网格环境下的任务调度策略研究

网格技术是将所有可用于共享的资源,通过网络连接起来,并将它们转化成一种计算能力,对资源进行整合,从而解决信息孤岛问题。用户将任务提交给网格后,需要对任务进行合理的分

学位

网格网格调度网格服务调度算法Gridsim模拟器

Estimating Heart Rate & Blood Glucose Levels using Wearable Sensors

学位

无创血糖监测无创血糖监测心率检测心率检测脉搏率脉搏率可穿戴传感器可穿戴传感器机器学习机器学习

彩色血细胞分割算法研究

随着图像处理在医学领域上的蓬勃发展，以计算机技术为核心的细胞检测技术在其发展上显得越发重要。作为细胞检测极为重要的一步，细胞分割技术的研究中，如何科学合理、高效快捷地

学位

图像分割C-均值模糊聚类算法区域增长算法图像拉伸彩色模型

Web Spam检测及网页排序算法的研究

其他学术论文