搜索引擎中网页查重方法的研究

来源 :北京化工大学 | 被引量 : 7次 | 上传用户:JockWang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎已经成为人们获取信息最主要的途径。与传统的获取信息方式相比,搜索引擎返回的信息更快速、更便捷、更全面。搜索引擎已经成为电子时代不可缺少的一部分。但是由于电子信息的特殊性,网络上有很多重复的信息,即在不同的网页地址上内容却是相同的,或者大体一致的。为了提高搜索引擎和用户检索的效率,网页查重的研究是非常必要的。网页查重主要包括两部分,一是对原始网页的处理,主要是对网页噪音净化以及对网页主题信息的提取;二是对网页内容进行查重处理。目前许多研究机构都在进行网页相似度的研究,也提出了一些相似度检测的方法,主要有三种类型:url分析、链接分析和内容分析。本文首先介绍了已有网页净化方法,并详细介绍了课题研究采用的Jtidy净化方法。其原理是JTidy被parseDOM方法调用,得到一个xml文档的InputStream类,并且形成一个DOM树,再利用标准的DOM API方法,使用简单的语句对DOM进行遍历,提取文档特定标签之间的内容以便建立索引;然后介绍了网页相似度检测方法,对现有的方法进行了讨论分析,并提出了使用bloom filter基于内容的检测相似性的方法。其具体过程是对净化后的网页文件,使用CDC进行内容块的分割,使每个网页成为许多内容块的集合。再对各个网页的内容块进行hash,得到各个网页的bloom filter,并将其保存。通过新增网页的bloom filter与已存储的bloom filter进行位与操作进行判定,如果达到给定阈值,则判断为相似网页;最后介绍了网页查重的分析与实现,给出了算法中用到的数据表文件,分析了相似程度对于相似文件数量的影响,查询词的流行度对相似文件数目的影响,以及文档bloom filter产生时间和执行相似度比较的响应时间。
其他文献
当前,环境污染和生态破坏严重威胁到人类的生存和发展,引起人们对教育的普遍关注和反思。如果教育不能有效地应对人类的生存危机,不能为人类的生存和发展问题的解决提供有关
目的:探讨腹腔镜Miles术中腹膜外隧道乙状结肠造口的临床疗效。方法:选取我院2007年11月至2010年12月收治的86例行腹腔镜Miles术的低位直肠癌或肛管癌患者,随机分为观察组44
辐射冷吊顶与独立新风相结合的系统最先是由美国学者提出来的,它主要是针对辐射冷吊顶和置换通风系统在北美所推广时遇到的结露、顶板冷却能力不足以及一次性投资三大问题而
高职院校美术鉴赏课要成为提升大学生的审美修养、实施人文精神教育的重要渠道,需使课堂教学充满人文关怀,丰富课堂教学形式,重视校外美术教育。
建设社会主义新农村,实现农业产业化,实现传统农业向现代农业的转变,人才的作用至关重要。这不仅需要高学历的拔尖创新人才和优秀领导人才,更需要一大批高素质的农村实用人才
介绍TLC5540芯片的引脚排列及特点,提出一种利用TLC5540设计高速数据采集卡的方法.采样时序和存储时序的巧妙控制是本文的重点.采集卡的采样速率和存储速率可以达到40 MHz.
本文以减数分裂与遗传规律的整合复习为例,阐述了在教学中通过温故知新、构建知识网络、提高学生综合运用知识的能力,对课堂复习知识进行有效整合的方法。
聚合氯化铝(PAC)由于具有投加量少、絮体大、絮体沉降速度快、成本低、混凝效果好等优点,目前在国内外广泛应用于水和污水处理上。对PAC在污水处理中的应用情况进行了综合论
针对传统的线性经济运行模式中缺乏废物再生利用系统的缺陷,指出构建废物再生利用系统是发展循环经济之关键。通过阐述我国再生资源产业的构成、功能和基本特征,对规范的再生
道德教育和法制教育是思想政治教育的两项重要内容,在实践中,教育工作者要将二者结合起来,一手进行道德教育,一手进行法制教育,实现道德教育和法制教育的和谐同步发展。这是由道德