【摘 要】
:
由于Web海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部Web信息并服务于所有领域的
论文部分内容阅读
由于Web海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部Web信息并服务于所有领域的查询请求。相比之下,垂直搜索引擎只覆盖与特定领域主题关键词相关的Web区域,这样搜索的内容可以更深,搜索的周期可以更短。由于Web分类众多,领域又广,用户希望能对所提供的服务定制。可定制的垂直搜索引擎应该从人的角度去设计,让用户选择自己感兴趣的领域服务,这样会吸引更多的用户。因此,能满足用户对快速、准确、方便的获取信息资源的要求。目前,垂直搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象,可定制的垂直搜索引擎更具挑战性和吸引力。本文首先简要介绍了搜索引擎的发展现状,分析了存在的优缺点,然后通过对当前通用搜索引擎技术的学习和研究,结合可定制的垂直搜索引擎的特点,设计出了可定制的垂直搜索引擎的总体架构及核心模块:网页抓取模块、分词储存索引模块、网页检索模块和可定制模块。然后本文分章节详细分析、设计和实现了这四个模块。它们构成了本文的核心部分。通过对垂直搜索引擎的Web信息抓取模块的设计和实现,完成了基本的网页抓取工作;本文采用了海量智能分词研究版(免费)来分词,结合Lucene实现了文档的存储与索引;在网页检索模块中,本文采用BFU排序算法来对网页进行排序,最后本文给出了函数的具体形式及收敛性证明;通过对各大垂直搜索引擎的亲身体验和仔细研究,分析出存在的不足及改善方法,于是本文设计了可定制的实现流程图及功能定制。本文最后的总结讨论了这些技术及其将来还需进一步研究的内容。
其他文献
随着Internet的飞速发展和万维网(WWW)的日益庞大,Web资源的复杂程度更是以指数级的数量增长,导致人们在查找所需信息时不知所措。为了解决“信息过载”和“资源迷向”的问题,搜
工作流管理是能够有效提高企业效率和执行质量的途径之一。流程建模是其中的一个重要环节,常见的建模方法大多是基于活动、产品、目标或决策的。基于活动的流程建模由活动及
协议工程是是以协议为研究对象的软件工程,它采用形式化方法描述协议设计和维护中的各个活动,但所建立的协议设计方法比现有软件工程方法更严格,从而使整个协议的开发过程更
本文所设计和实现的系统是东软HIS (Hospital Information System)中的一个子系统,该子系统为东软HIS中各个子系统的消息传递搭建了一个高效和可靠的消息传递桥梁,以此来减少
随着Internet技术的迅速发展,利用网络平台解决城市中突发事件时多个部门协同工作的城市应急联动系统受到政府部门的极大重视,这对提高城市对突发、应急和灾难性事件的快速反
人脸表情识别技术是涉及生物特征识别、模式识别、图像处理、机器视觉、运动跟踪、生理学、心理学等研究领域的一个极富挑战性的交叉课题,是近年来模式识别与人工智能领域的
课程之间拓扑图的自动构建可以为高等学校教学计划自动编排、在线图书销售与推荐系统等提供模型参考。课程之间拓扑图自动构建技术的核心任务是如何依据课程的语义建立课程之
数据挖掘是从大量数据中挖掘出未知的、有价值的模式或规律的复杂过程。聚类分析是数据挖掘中的一个重要研究领域,其目的是按照事物间的相似性对给定事物进行区别和分类,并采
Java语言由于其独特的“一次编译,随处运行”的特点已经成为目前因特网上非常流行的编程语言。平台无关、面向对象、多线程、可靠安全这些特性使得Java在互联网领域得到广泛
船舶试验数据服务平台的研发是由国防科工委为服务于全国船舶行业,旨在共享数据信息和船舶技术以便于技术咨询和设计研究而提出的课题。按照国家“十一五”规划提出的科学发