基于内容的搜索引擎网页去重研究

被引量 : 4次 | 上传用户:danan1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,网络信息在社会生活中的价值越来越大,网络已成为人们发布和获取信息的重要渠道,各种信息资源的数量也呈爆炸式增长,受信息需求驱动而出现的搜索引擎业已成为网络用户获得信息的重要手段。然而,在数以亿计的网页中,存在着规模庞大的内容重复网页,主要来自于网页转载,有些是完全相同,有些是部分相同的。这些冗余的网页给搜索引擎带来很大的负担,严重影响着搜索引擎的性能和用户的体验。因此,为了提高检索质量,重复网页检测和消除已经成为搜索引擎无法回避的问题,网页去重也因此成为了信息检索领域中的一个热点领域。网页查重分为两个部分:一是网页的预处理,包括网页格式的转换、噪声去除和提取出正文内容;二是基于网页内容进行去重处理。国内外已有的去重算法主要有一下几种:基于URL去重、基于语法去重和基于语义去重。本文首先介绍了国内外的网页净化研究现状,对已有的算法进行了简要的分析,进而提出了基于标记窗的网页正文提取算法。其主要原理是用DOM将网页表示成一颗标签树,再遍历DOM树,去除链接、图片和脚本等噪音之后,将每一层的容器标签和其中的文本作为标记窗析取出来,根据文本的语法特点赋予标记窗权值,取权值最大者。然后,本文系统综述了国内外已有的去重算法,提出了基于大段落和长句的网页去重算法,算法中使用BloomFilter进行相似性判断,并且提出了一套新的相似度度量指标。具体过程是对提取出来的正文,从符合条件的大段落中提取出长句子,并且截取长句子两端各L个字符组成特征码;将网页的特征码进行哈希,得到该网页的BloomFilter和MD5摘要值;利用MD5值将完全相同的网页预先去除,然后再将BloomFilter进行比较,计算相似度和包含度,如果超过阈值,则说明是重复的。最后,介绍了网页去重算法的实现和实验分析,对BloomFilter在算法中的响应时间进行了专门的讨论。
其他文献
近几年移动有线宽带跨越式发展,月装机量激增,同时服务时限要求进一步提高,装机时限由几年前的3~5天压缩到48h。文中阐述了利用人工智能(AI)技术开发有线宽带安装自动化管理
税收是国家收入最重要的来源。中国是世界上最早建立税收,或称赋税制度的国家之一,赋税在中国古代往往就是政治的组成部分,许多政治改革的主要内容也是赋税改革。但纵观中国
以土柱模拟试验为基础,利用不同稀释倍数的农村混合污水(污水∶清水为1∶0,1∶1,0∶1)灌溉小麦,进而研究农村混合污水灌溉(WG)对小麦生长、根际土壤养分、酶活性和微生物多样
随着临汾市市民生活水平的提高和休假时间的增长,越来越多的市民开始选择旅游作为自己度过假期的方式。环城游憩活动因其有着消费少、需要时间较短等优势而备受城市居民青睐,
党的十八大报告把友善列为社会主义核心价值观之一,这是我国社会深刻变革背景下公民道德建设的迫切要求。友善作为一种价值观,在中西方文化中都有着深刻的思想渊源。友善对社
二里头考古工作队在田野发掘过程中,出土了一件举世瞩目的绿松石镶嵌饰物,经过认真系统地清剔处理,比较完整地将饰物原本的状态展现了出来,并且也搞清楚了饰物的大概结构。在
"农民专业合作社+农户"成为继农户多户联保之后一种重要担保方式,已运行两年。这种模式究竟能否起到预期的风险防控作用,会不会如多户联保出现诸多问题,如何发展完善这种模式
到2008年我国《建筑结构抗震规范》(GBJ11-89)实施近20年,新抗震规范(GB50011-2001)实施也有7年时间,我国四川汶川大地震,造成了巨大的人员伤亡、房屋倒塌和经济损失,这些房
针对斜拉桥设计和监控计算中合理成桥状态和施工状态索力的确定问题,提出了一种基于MOPSO算法的斜拉桥索力优化方法。该方法在PSO算法的基础上通过增加外部储备集和优化更新
人类信仰的一切形象都源于可被观察的自然现象,受崇拜的形象并非来自虚幻,而是自然现象被神化的结果。本文旨在比较各上古文化的信仰内容,并藉此了解中国龙的形象自然来源。