搜索引擎重复网页检测技术研究

来源 :重庆理工大学 | 被引量 : 5次 | 上传用户:RIPV2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的飞速发展,给人们带来了一个信息的海洋,如何快速从中获取真正重要的信息变得至关重要,搜索引擎便是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在着大量的重复网页。这不仅严重影响了搜索引擎检索信息的效率,同时存储这些重复网页浪费了巨大的存储空间。而对于搜索引擎的用户而言,在检索含有大量重复网页的系统时,提供给用户的有效响应明显降低。因此,重复网页检测已成为搜索引擎提高检索效率与服务质量的关键技术之一。本文以搜索引擎的重复网页检测问题为研究背景,首先对现存的主要重复网页检测算法进行了深入的研究,总结了它们各自的优缺点;并以此为基础提出了一种基于语义的重复网页检测算法。该算法主要针对重复网页检测的两个关键环节进行优化。在文本预处理中,根据词语之间存在着大量的同义与近义的语义关系,增加了同义词与近义词的归并;在特征提取环节,从词语在文本中的语义角度出发,与传统方法相比,增加了词语的位置权值与长度权值;在特征比较环节,回避了传统方法对网页的两两比较,采用了二叉排序树的数据结构,比较的效率得到很大的提高。并针对如何对提取的关键词排序的问题,又提出了两种关键词排序方法,一种是按关键词权值排序的SORTw(Kd)方法,另一种是按关键词字母排序的SORTa(Kd)方法。为了验证所提出算法的有效性和效率,本文在Windows平台实现了一个重复网页检测的原型系统。运用此原型系统,进行了一系列的实验分析与总结,并验证了本文所提出的基于语义的重复网页检测算法及两种关键词排序方法均具有较高的准确率与召回率,与较低的时间与空间复杂度。进一步改进、完善以后,可望获得今后在实际当中的应用。
其他文献
信息技术的发展过程是一个对时间与空间的挑战过程,3G时代,人们追求在更少的空间上实现更高效更强大的功能。动态多应用智能卡本着“轻松持卡、方便用卡、减少重复发卡、避免
随着信息技术的发展与互联网的迅速普及,P2P (Peer-to-Peer)网络的规模急速增大,应用日益广泛。在P2P网络中,节点具有客户机与服务器的双重身份,网络的运行完全依赖于节点的
近年来,随着在线考试系统的推广和流行,针对计算机自动评分技术的应用研究已迅速地发展并成熟起来。但是,目前大多数的在线考试系统,由于无法或不能很好地实现对主观题的评分
近年来,物流行业凭借它巨大的利润空间在我国已经悄然兴起,成为中国目前最重要的竞争领域。在物流企业运作成本中配送成本占了极高的比例,摆在物流从业者面前主要的问题是如
随着网络和现代通信技术的飞速发展,信息隐藏技术已经成为信息安全领域一个新的研究热点。其原理是利用载体中存在的冗余信息来隐藏秘密信息。它通过隐藏通信过程的存在来获
当今社会随着地理信息技术的迅猛发展,地理空间数据量急速增长,传统的存储和处理方式已经难以满足需求。如何高效的存储和处理海量地理空间数据,正逐渐成为各大IT企业和知名学术
随着嵌入式实时应用系统的迅速发展,面对着不断增长的嵌入式软件开发的复杂性压力,如何高效的开发嵌入式应用程序,成为软件工程学迫切需要解决的问题;同时,系统的非功能属性,
由于介词属于虚词,本身并不像实词那样具有具体的词汇意义,但是介词与其介引对象所构成的介词短语在句法分析中却具有重要意义,介词短语结构在汉语文本中是最常见的短语结构,
软件测试是保证软件正确性和提高软件可靠性的最基本和最重要的手段。传统的软件测试方法和技术是基于结构化思想的,较少考虑面向对象技术的特性,模型中的重要概念能够与面向
在计算机视觉和数据库系统两大技术的共同推动下,基于内容的图像检索技术,已经成为一个非常活跃的研究课题。不同于基于文本的传统图像检索技术,基于内容的图像检索技术,是通过提