搜索引擎中近似镜像网页去重研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:suncj007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网发展的初期,网页数量相对较少,用户查找信息比较容易。伴随着互联网爆炸性的发展,网络用户想找到所需的信息简直如同大海捞针,面对海量而又快速更新的网络信息,如何快速准确地找到自己需要的信息就变得越来越重要了。为使网络用户搜索信息速度更加快捷和准确,专门在互联网上执行信息检索任务的搜索引擎技术应运而生,极大地改变了人们的工作和生活方式。   但用户在搜索信息的时候常常会发现,在返回结果中存在大量重复信息,严重影响了搜索引擎检索的效果。无论是对于搜索引擎还是网络用户来说,重复网页都是非常有害。对于搜索引擎来说,会引起存储资源的浪费,对于检索用户来说,降低了用户对搜索引擎服务效果的满意程度,同时不利于维护网络原创的热情。为提高搜索引擎的检索效率,减轻用户获取有效信息的时间和成本,快速地甄别和去除重复网页是一个非常有效的途径。   本文在已有技术的基础上,针对现有网页去重算法的不足和网页正文的结构特征,对基于网页结构的去重算法进行了改进。研究内容主要包括:   首先,本文介绍了网页去重的前期工作,包括网页去噪和中文分词。在分析现有网页去噪算法的基础上,为能够有效地消除网页噪音,准确提取出主题型网页中的正文信息,本文提出了一种基于网页标签树来模板化提取网页正文的方法。通过构造网页标签树,定义具有最多子结点的结点所形成的子树标记网页正文信息。对算法流程及算法实现进行了阐述。然后介绍了中文分词的基础知识,并将中科院开发的中文分词系统ICTCLAS用于后续的关键词分析和逻辑段落划分。   其次,本文分析国内外经典的的网页去重算法,阐述了算法的基本思想,并对各种算法的优势和缺点进行了分析。   最后,在分析基于网页正文结构去重算法的基础上,对其不足之处进行改进,提出了基于网页正文逻辑段落和长句提取的去重算法,该方法以用户查询关键词为基础,通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长旬作为网页特征码实现相似网页判断,并进行实验验证,试验表明,该方法可以有效地解决篇幅短小的近似镜像网页的去重问题。
其他文献
[目的/意义]全民阅读逐渐上升至国家战略层面,在新媒体环境下浅阅读异军突起,需要驱动深阅读以保持阅读形态平衡,促进全民阅读的推广和深入.[方法/过程]从认知层面基于图式理
[目的/意义]调查目前国内高校图书馆开展同伴教育服务的现状及存在的问题,并根据问题提出相应的发展策略,拓展高校图书馆为学生群体服务的渠道,促进服务创新.[方法/过程]综合
期刊
科技人才是知识和科技的载体,随着科学技术的进步和科学技术对经济社会影响的不断增大,科技人才的重要性日益显著。青年科技人才是科技创新的生力军,同时又是未来科技队伍的
[目的/意义]从主题视角对环境科学领域的零被引论文进行分析,对比零被引论文与高被引论文在文章内容、外在指标方面的不同,揭示零被引论文存在的原因.[方法/过程]首先,对来自
随着科学技术的发展,数字时代的到来,许多地方产业逐渐退出历史舞台,留下了大量珍贵的工业遗产。工业遗产档案成为了城市记忆的一部分,在城市历史中发挥着重要作用。这些年,工业遗产的开发已成为城市规划和建设的又一指标。如何保护开发工业遗产档案值得各有关部门的重视。笔者站在档案的角度,分析了工业遗产档案保护与开发的思想与技术方法,并对苏州丝绸档案进行实证分析。本文共分为六个章节:第一章绪论介绍了论文的选题背
[目的/意义]学术文献影响力评价指标不断推陈出新,但尚缺乏在研究主题层面对文献影响力的评价,为发现不同研究主题内具有高影响力和引用价值的文献,本研究给出一种基于研究主
弃档现象是由于传统人事档案制度固化和制度环境变化之间的张力作用,而产生的一种社会失范现象。对弃档现象产生的原因分析,是本文的论述重点。通过对弃档现象产生的心理学基
[目的/意义]对现有相关研究文献进行梳理分析,探索性地提出知识转移双方关系应该由工作、利益和友情3个维度构成,并创造性地将3种关系纳入到同一理论框架内进行研究.[方法/过
[目的/意义]从文献内容角度了解图书情报学(LIS)领域对循证科学的研究进展,重点分析主要的研究主题及近年研究方向,同时进行国际与国内的对比.[方法/过程]从Web of Science核