基于正文结构和长句提取的网页去重研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wubaishan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究表明,近似镜像网页数占总网页数的比例高达29%,而完全相同的页面大约占22%。根据CNNIC 2005年7月发布的统计报告,用户在回答“检索信息时遇到的最大问题”这一提问时,选择“重复信息太多”这一选项的占44.6%,排名问题榜的第1位。如果搜索引擎能够找出这些重复网页并从数据库中去掉,不仅可以节省存储空间,也可以提高有效网页的收集速度,还可以根据网页的镜像度来制定更为合理的网页搜集策略和输出结果定序(Ranking)算法。因而,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。通过分析大量重复网页,本文发现重复网页有以下两个特征:①重复网页的正文可以表示成一棵正文结构树。其中标题为根结点,每个自然段按照其在正文结构中所处的层次表示为树相应层次的一个结点。②重复网页的正文内容很可能有所变化,但网页的正文结构形式通常不会改变或改变很小。即使最坏情况的分页转载形式,网页的正文结构也不会发生较大变化,只不过分页转载后的网页正文结构树是其原文正文结构树的一(几)棵子树分支。针对网页重复的特点和网页正文的结构特征,本文提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法先对网页进行必要的去噪处理,其次将网页正文通过正文结构树生成算法表示成一棵正文结构树(除根节点外,正文结构树的结点对应于正文中的自然段),然后动态地、层次地从树中抽取结点段落作为长句提取算法的输入得到层次指纹,最后通过层次指纹的相似度计算算法得到网页的相似度,从而实现镜像网页和近似镜像网页的检测。动态地、分层地对正文进行特征抽取和层次指纹计算,保证了去重算法的效率;通过长句提取算法得到结点指纹,保证了算法的鲁棒性。实验表明,该方法相对于基于自然段签名算法和基于长句提取算法有更好的召回率。该方法不仅解决了在正文前后添删信息的近似镜像网页,也解决了在正文中添删信息的近似镜像网页,还解决了分页转载的近似镜像网页。此方法在搜索引擎重复网页的过滤中有很好的应用前景和较高的研究价值。
其他文献
全局优化问题几乎应用于每一个学科,工程领域和业务中。例如,工程师要为设计的汽车提供最佳的性能。为了实现这一目标,需要优化汽车的配置参数。最佳参数配置的查找就属于全
随着网络的不断发展,特别是移动互联网和物联网,网络已成为生活不可或缺的一部分。伴随网络发展而来的是,网络安全、服务质量和网络管理等一些列相关问题日益突出。如果不能
随着Web服务的大量涌现和Web服务研究和应用的不断深入,如何自动、准确、高效的进行服务的发现,已经成为Web服务研究中的热点和难点。由于Web服务缺乏语义描述,传统的基于关
随着高速网络环境的日益普及,传统网络入侵检测系统(Network Intrusion DetectionSystem,NIDS)检测海量网络数据报文时普遍存在检测效率不高、处理能力不足及丢包率较高等瓶
随着计算机软件技术和信息化的不断发展,近年来易货贸易也得到了飞速发展。易货贸易系统的各个子系统涉及到不同的部门和机构,管理着不同的对象,但是它们之间也有很多相互交
海量数据处理技术的发展,使数据挖掘算法所要训练的数据量级呈几何式增长,为了降低计算难度,较多的数据挖掘算法在求解最优化问题时采用迭代式的方法。数据的样本输入以及迭
视频目标分割是计算机视觉领域的一个热点问题,它是视频监视、人机交互以及视频编辑等众多应用系统的基础,高效准确的视频目标分割算法可以大大降低后继应用的处理难度。视频目
三角剖分在曲面重构、医学成像及地理信息系统(GIS)等领域有着广泛的应用。   本文结合地质数据的特性设计一种三角剖分算法,它杂度低,还能保证高质量网格的形成。Delaunay
现如今,各行各业都在使用计算机软件,都力求实现信息化管理。特别是一些比较典型的行业,例如金融、医疗、通信、保险等,信息化程度已经达到了比较高的程度。BI(商务智能)管理
电信增值业务的迅速发展给运营商带来了丰厚的收益,特别是彩铃等优势业务的不断壮大,很大程度上提高了客户的ARPU(Average Revenue Per User)值.,如何保障这些增值业务的运行