论文部分内容阅读
随着互联网的飞速发展,网络信息量不断增加,垃圾网页也逐渐增多,这极大影响搜索引擎的精度和效率,如何在海量信息中寻找到高质量的搜索结果,以满足用户需求变得越来越重要。如何辨别垃圾网页已成为互联网和搜索引擎面临的最严峻的挑战之一。搜索引擎作弊分为两大类,链接作弊和内容作弊。一方面垃圾网页链接到高信任值网页以提高自身排名,另一方面网页采用堆砌关键字等内容作弊方法以提高网页间内容的相似度。论文将垃圾网页检测算法转化为对网页评分与排序,算法基于搜索引擎的作弊特点,对基于网页质量的TrustRank算法分别从链接和内容两方面进行优化。论文主要工作如下:(1)阐述国内外研究现状,提出当前算法本身存在的问题:现有基于链接的检测方法多是依照原有链接拓扑进行计算,而忽略垃圾链接存在的可能性;针对这个问题,论文首先根据网页内容抽取特征属性组成向量,通过分析相邻网页间特征向量的相似程度为链接评分,之后对比链接评分与网页访问量识别垃圾链接,并且重新为正常链接设置权重,以此重构网络链接拓扑。(2)优化TrustRank算法。传统TrustRank算法基于向下随机游走模型,支持信息的后向传播性,即网页A链接到网页B,A是否是垃圾网页直接影响网页B的评分。论文优化TrustRank算法,提出一种基于双向随机游走模型的Two Direction Rank(TDRank)算法,算法使得网页A与网页B的评分相互影响,从而避免垃圾网页由于引用过多高质量网页而得到高信任值的情况。同时,论文尝试研究其它简单且高速的算法作为选择种子集的方法,为TDRank算法提供一个合适的输入向量,使得实验结果更加准确有效。(3)论文基于WEBSPAM-UK2007数据集,设计实验验证上述方法的有效性,同时分析算法准确性与效率。实验结果证明所提算法的有效性。