搜索引擎结果的再检索

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:feng1644
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络搜索引擎在网络信息资源查找中起到了重要的作用,它可以帮助人们从浩如烟海的网络信息中找到自己想要的信息,用户只需输入感兴趣的查询关键词,搜索引擎系统即可为用户找到有关信息。 但是现在的搜索引擎技术并不完善,存在着一些亟待解决的问题,集中表现在检索的准确率和召回率低,且存在大量内容相同的冗余网页。冗余网页不但浪费了存储资源,还给用户的检索带来诸多不便。 当我们需要某些信息时,一般是启动某个搜索引擎,输入我们想要了解的关键词,之后搜索引擎会为我们返回大量的结果,我们会发现查询结果中普遍存在着大量的无关项、重复冗余项。 对搜索引擎的结果进行再检索处理,是指对搜索引擎的结果进行聚类分析或消除冗余等再次处理,以减少因搜索引擎结果的不完善对用户造成的不便。 对搜索引擎结果的再检索,不需要通过自动索引程序Robot(或网络蜘蛛)来广泛搜集网络信息资源数据,它只组织其他搜索引擎的输出结果,比如URLS、标题和简短的描述,它也能组织多个搜索引擎的组合输出结果,并对这些结果进行再处理。 本文描述了一个搜索引擎再检索系统的设计与简单实现。本文的目标就是实现一个Imelligence Agent系统,由系统代替用户对搜索引擎结果进行对比,并去除其中内容重复的冗余网页,将去重后的结果提供给用户,从而为用户节省时间和精力。 本文系统利用互联网现有的搜索引擎(百度)所提供的检索结果,通过对检索结果提供的网页文摘进行分析,判断重复度,达到网页去重的目的。
其他文献
随着计算机网络、各种电子化服务行业的飞速发展,人们对网络通信、数据安全的要求越来越高。如何保证信息和网络自身安全性的问题,尤其是在开放互联环境中进行商务等机密信息
首先,本文对言语行为基本理论和当前对话系统中的言语行为研究现状进行了概述,在参考了塞尔的言语行为分类标准和方法后,结合交通查询领域的实际特点,确定了七种交通查询领域的言
在完成了“钢厂销售管理系统”开发的基础上,通过对该系统的研究和分析,发现大量销售数据表明了钢铁种群具有一定的相关性。鉴于此,本文通过对操作型数据库的数据进行了数据选择
本文的主要研究目的是实现一个三维人脸重建与二维半虚拟雕刻仿真系统。该系统以两幅正交图像作为输入,经过图像分析和模型修正得到人脸三维信息,最后将此重建信息输入到仿真子
互联网技术的发展缩小了世界的距离,然而却使人们的生活更加精彩。我们必须要感谢网络通讯的不断发展,任何一个拥有多媒体电脑的人都可以享受到视频会议带来的便捷:任何时间
信息技术的高度发展所引发的经济革命,正在迅速的改变着世界的方方面面。计算机及其应用技术与互联网的相互结合正以高科技特有的服务价值改变着传统行业的存在方式和发展模式
IP 地址盗用是网络管理中常见且危害极大的因素。IP 地址盗用不仅给网络计费带来了负面影响,而且破坏了正常的网络运行和应用,因此解决IP 地址盗用问题是保证校园网安全运行
世界上没有绝对安全的网络,只有相对安全的网络,就是被称为“祖国的钢铁长城”的部队其网络也不例外。部队相对安全网络环境的取得一方面要通过不断地完善系统程序、装上功能
本文是针对内蒙古地区气候特点,选取对当地经济发展影响较大的主要气象灾害——黄河凌汛和干旱,进行监测预警评估系统的研究与设计。首先根据黄河内蒙古段凌汛特点和河套地区
长久以来软硬件测试就是彼此独立,各自发展的两个领域,两者之间几乎没有任何联系。而事实上软硬件测试存在着许多共性,测试人员也已经自发地应用了一些相似的测试方法,也就是说软