基于TrustRank的垃圾网页检测算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:owenyhz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络信息量不断增加,垃圾网页也逐渐增多,这极大影响搜索引擎的精度和效率,如何在海量信息中寻找到高质量的搜索结果,以满足用户需求变得越来越重要。如何辨别垃圾网页已成为互联网和搜索引擎面临的最严峻的挑战之一。搜索引擎作弊分为两大类,链接作弊和内容作弊。一方面垃圾网页链接到高信任值网页以提高自身排名,另一方面网页采用堆砌关键字等内容作弊方法以提高网页间内容的相似度。论文将垃圾网页检测算法转化为对网页评分与排序,算法基于搜索引擎的作弊特点,对基于网页质量的TrustRank算法分别从链接和内容两方面进行优化。论文主要工作如下:(1)阐述国内外研究现状,提出当前算法本身存在的问题:现有基于链接的检测方法多是依照原有链接拓扑进行计算,而忽略垃圾链接存在的可能性;针对这个问题,论文首先根据网页内容抽取特征属性组成向量,通过分析相邻网页间特征向量的相似程度为链接评分,之后对比链接评分与网页访问量识别垃圾链接,并且重新为正常链接设置权重,以此重构网络链接拓扑。(2)优化TrustRank算法。传统TrustRank算法基于向下随机游走模型,支持信息的后向传播性,即网页A链接到网页B,A是否是垃圾网页直接影响网页B的评分。论文优化TrustRank算法,提出一种基于双向随机游走模型的Two Direction Rank(TDRank)算法,算法使得网页A与网页B的评分相互影响,从而避免垃圾网页由于引用过多高质量网页而得到高信任值的情况。同时,论文尝试研究其它简单且高速的算法作为选择种子集的方法,为TDRank算法提供一个合适的输入向量,使得实验结果更加准确有效。(3)论文基于WEBSPAM-UK2007数据集,设计实验验证上述方法的有效性,同时分析算法准确性与效率。实验结果证明所提算法的有效性。
其他文献
非真实感绘制(Non-Photorealistic Rendering,NPR)从20世纪90年代中期开始逐渐成为计算机图形学的一个研究热点,是计算机技术和绘画艺术相结合的一个研究领域,指的是利用计算机
随着数字电视的快速发展以及一系列先进的音视频压缩标准的引入,基于多媒体技术的业务迅速走入人们的生活,如IPTV,网络电视等。因此,人们对音频和视频播放效果的关注程度也在
随着Internet和多媒体技术的飞速发展,实时传送视、音频媒体文件的技术成为了热点,同时用户也对视频传输和图像质量有了更高的要求。新一代的视频标准AVS即“数字音视频编解
近年来,随着群体智能[1][2]算法在数据处理分析问题上表现出来的巨大潜力,大批的研究人员投身于其中进行研究。但是这类的群体智能算法往往存在着调节参数过多,所得解不是最
根据锦州电厂动态成本核算与分析系统设计需求,结合发电企业内部信息系统工作协同以及业务集成度亟待改进的现状,本文研究了面向服务架构(SOA)在发电企业应用方案,提出了基于
传统的考试方式需要使用大量的人力物力来印刷、运输试题,效率低、费用高。随着互联网的蓬勃发展,利用计算机网络实现高效、低成本和形式多样的网络考试已成为现代教育的一种
计算密集、耗时长是现代天文数值模拟的主要特点。提高模拟计算的性能,减少计算资源的消耗,在精度和性能之间取得一个最佳的平衡点,一直是天文数值模拟软件设计的关键目标。同时
随着多媒体技术和网络技术的飞速发展和广泛应用,数字多媒体产品的存储、处理和传输变得越来越方便和快捷,多媒体的真实性认证和版权保护问题显得越来越重要。然而,因为多媒
传统的搜索引擎将网页和链接作为处理单位,对于用户的查询,按照网页与查询的重要程度排序返回给用户,但随着互联网中大量重复网页和作弊链接的存在,使得利用网页排序算法返回
在软件工程中,自然语言描述需求说明文档的做法应用广泛,典型的如使用UML建模工具。但是,自然语言的多义性、上下文有关性、非系统性等特点致使其在描述复杂系统时可能引起语