网页查重算法研究

被引量 : 13次 | 上传用户:stefanie456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索系统)即是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在大量的重复网页,它们主要来自网站之间的转载。这些内容重复的网页既占用了网络带宽,又浪费存储资源,用户不希望看到一堆内容相同或近似的检索结果,真正有用的结果往往淹没在这些重复信息之中而不易被发现。如果能够有效消除这些重复网页,不但会提高检索的准确率,节省用户的时间和精力,而且对搜索系统本身而言可以节省网络带宽,降低存储成本,提高搜索引擎的性能。本文主要研究搜索引擎中网页查重的问题。首先简要介绍了搜索引擎的原理,发展现状,存在的不足和发展趋势,以及本课题研究的背景和意义。其次对当前国际和国内相关领域的研究动态进行了深入的分析,详尽介绍了网页查重算法的起源和研究历史,网页查重算法的分类及各个分类的代表性算法,这些算法对原有算法的改进、性能和优缺点。其中着重介绍了非常优秀和经典的算法shingling和simhash,许多算法都是基于这两种算法的思想进行的改进。Google正是利用simhash来实现网页查重。Charikar的simhash算法对检测数万亿的存储级别的相似网页是非常实用的。作为指纹技术的simhash具有相似文档的指纹只存在很小位数的不同的特性。Simhash是一种降维技术,可以将高维向量映射为位数较小的指纹。它在网页中的应用过程如下:首先将文档转化为特征码的集合,每个特征码附有一个权值。特征码的生成采用IR技术,比如分词、大小写转换、停止词去除。一个附有权值的特征码的集合构成一个高维向量,通过simhash可以将这个高维向量转化为f位的指纹,f的值很小,比如64。最后详尽介绍了在很多重要的项目中广泛应用并取得一致好评的开源项目Clucene,以及如何利用Clucene建立自己的搜索引擎系统,进行索引和检索查询。Clucene提供了丰富的API函数,利用这些API函数可以方便的建立自己的搜索引擎系统。详细介绍了主要的类,数据结构,系统结构及如何实现索引,搜索和分析。
其他文献
新的课程理念以及信息技术与学科课程的整合向传统的教学形式提出挑战,这就要求教学形式要更加多样化。本文针对目前网络课程中存在的不足,对中学物理网络课程的设计方法进行
红豆杉是一种珍贵的药用植物,富含紫杉醇,以及其它紫杉烷类化合物,目前关于红豆杉抗肿瘤的研究主要集中在紫杉烷类化合物,特别是紫杉醇方面—提取紫杉醇的主要原料。这对野生
在我国过去长期计划经济发展的过程中,产生了一批以能源、原材料开发为经济支柱的资源型城市。这些资源型城市经过长期的资源采掘,逐渐进入成熟期和衰退期,面临资源开发成本
苏轼的《前赤壁赋》既有对优美的景色的描写,又有对人生哲理的沉思,文章中显现出四个方面的人生问题,即人生的有限性和无限性、人生有无意义、人生应追求功利还是淡泊名利、
安徽花鼓灯是淮河文化的组成部分,集舞蹈、歌唱、器乐演奏、盘鼓、后场小戏等艺术形式于一体,它是皖北沿淮人民精神面貌,性格特征,审美取向以及相关的民风民俗的集中体现。本
《喧嚣与骚动》是福克纳"约克纳帕塔法"世系小说的扛鼎之作,其中女性形象历来是人们研究的焦点。本文把迪尔西、卡洛琳、凯蒂、小昆丁这些女性形象视作一个整体群落,并发掘其
企业专用无线局域网是企业业务支撑网络,不同于社会公共服务网络,有其特殊性需求。本文详细分析企业无线局域网的特点,对建设专用无线局域网进行深入研究,提出安全高效的解决
翻转课堂模式是利用现代网络技术和资源,重构教学流程,对英语教学有重要启示,值得英语教学者重视和思考。
在城市生活中,我们仍然渴望有一片养眼的风景来放松自己的身心。在城市各种公共空间中,河岸空间仍然是人们向往的游憩之地。河流的治理和河岸的改造有着很强的工程性,在这一
随着石油资源的日益枯竭,煤化工作为一条替代石油化工的发展道路,具有重要的能源安全战略意义,正在逐步得到国家的重视和大力扶持,目前呈现出火热的发展态势。然而作为一个新