论文部分内容阅读
随着信息时代的发展,网络信息在社会生活中的价值越来越大,网络已成为人们发布和获取信息的重要渠道,各种信息资源的数量也呈爆炸式增长,受信息需求驱动而出现的搜索引擎业已成为网络用户获得信息的重要手段。然而,在数以亿计的网页中,存在着规模庞大的内容重复网页,主要来自于网页转载,有些是完全相同,有些是部分相同的。这些冗余的网页给搜索引擎带来很大的负担,严重影响着搜索引擎的性能和用户的体验。因此,为了提高检索质量,重复网页检测和消除已经成为搜索引擎无法回避的问题,网页去重也因此成为了信息检索领域中的一个热点领域。网页查重分为两个部分:一是网页的预处理,包括网页格式的转换、噪声去除和提取出正文内容;二是基于网页内容进行去重处理。国内外已有的去重算法主要有一下几种:基于URL去重、基于语法去重和基于语义去重。本文首先介绍了国内外的网页净化研究现状,对已有的算法进行了简要的分析,进而提出了基于标记窗的网页正文提取算法。其主要原理是用DOM将网页表示成一颗标签树,再遍历DOM树,去除链接、图片和脚本等噪音之后,将每一层的容器标签和其中的文本作为标记窗析取出来,根据文本的语法特点赋予标记窗权值,取权值最大者。然后,本文系统综述了国内外已有的去重算法,提出了基于大段落和长句的网页去重算法,算法中使用BloomFilter进行相似性判断,并且提出了一套新的相似度度量指标。具体过程是对提取出来的正文,从符合条件的大段落中提取出长句子,并且截取长句子两端各L个字符组成特征码;将网页的特征码进行哈希,得到该网页的BloomFilter和MD5摘要值;利用MD5值将完全相同的网页预先去除,然后再将BloomFilter进行比较,计算相似度和包含度,如果超过阈值,则说明是重复的。最后,介绍了网页去重算法的实现和实验分析,对BloomFilter在算法中的响应时间进行了专门的讨论。