论文部分内容阅读
Web Spam是一种不考虑网页的真正价值,却有意实施不公正的相关性或重要性的排名行为。它的出现不但威胁到搜索引擎的公正排名,同时还严重影响用户的搜索体验。如何通过分类来检测Web Spam,以及如何通过网页排序得到内容相关的网页已成为目前的研究热点。本文针对Web Spam分类和网页排序算法进行了深入的研究。主要工作如下:第一,首先分析了内容特征属性和链接特征属性对Web Spam的影响,针对单纯利用内容或链接作为特征属性分类的不足,提出了一种新的特征属性。该特征属性基于网页内容和链接之间的关系,通过计算两个网页中不同元素的相似度来获得。然后,将内容特征属性、链接特征属性和新特征属性融合产生一种新的分类特征属性。最后,根据Web Spam数据集不平衡的特点,将代价敏感方法与决策树算法C4.5结合用于Web Spam分类。通过数据集WebSpam-UK2007进行实验,分类结果优于决策树算法C4.5,验证了该分类算法的可行性和有效性。第二,针对经典网页排序算法PageRank偏重于旧网页以及容易发生主题漂移的缺点,提出了一种改进的PageRank网页排序算法。改进算法针对偏向旧网页的缺点构建了一个时间权重因子;针对算法容易发生主题漂移的缺点构建了一种相似度权重因子;并在算法中加入了一个具有抗击链接垃圾页面功能的Web Spam抗击因子。通过实验与经典PageRank算法进行了比较,改进的PageRank网页排序算法在搜索到相关的网页方面得到了明显的提升。