论文部分内容阅读
在互联网发展的初期,网页数量相对较少,用户查找信息比较容易。伴随着互联网爆炸性的发展,网络用户想找到所需的信息简直如同大海捞针,面对海量而又快速更新的网络信息,如何快速准确地找到自己需要的信息就变得越来越重要了。为使网络用户搜索信息速度更加快捷和准确,专门在互联网上执行信息检索任务的搜索引擎技术应运而生,极大地改变了人们的工作和生活方式。
但用户在搜索信息的时候常常会发现,在返回结果中存在大量重复信息,严重影响了搜索引擎检索的效果。无论是对于搜索引擎还是网络用户来说,重复网页都是非常有害。对于搜索引擎来说,会引起存储资源的浪费,对于检索用户来说,降低了用户对搜索引擎服务效果的满意程度,同时不利于维护网络原创的热情。为提高搜索引擎的检索效率,减轻用户获取有效信息的时间和成本,快速地甄别和去除重复网页是一个非常有效的途径。
本文在已有技术的基础上,针对现有网页去重算法的不足和网页正文的结构特征,对基于网页结构的去重算法进行了改进。研究内容主要包括:
首先,本文介绍了网页去重的前期工作,包括网页去噪和中文分词。在分析现有网页去噪算法的基础上,为能够有效地消除网页噪音,准确提取出主题型网页中的正文信息,本文提出了一种基于网页标签树来模板化提取网页正文的方法。通过构造网页标签树,定义具有最多子结点的结点所形成的子树标记网页正文信息。对算法流程及算法实现进行了阐述。然后介绍了中文分词的基础知识,并将中科院开发的中文分词系统ICTCLAS用于后续的关键词分析和逻辑段落划分。
其次,本文分析国内外经典的的网页去重算法,阐述了算法的基本思想,并对各种算法的优势和缺点进行了分析。
最后,在分析基于网页正文结构去重算法的基础上,对其不足之处进行改进,提出了基于网页正文逻辑段落和长句提取的去重算法,该方法以用户查询关键词为基础,通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长旬作为网页特征码实现相似网页判断,并进行实验验证,试验表明,该方法可以有效地解决篇幅短小的近似镜像网页的去重问题。