基于Lucene的异构数据源分布式企业级搜索引擎研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:alanlee75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着企业信息化进程的加快,信息搜索与查询技术已经成为影响企业综合效率的关键因素。企业数据每年以200%的速度增长,其中80%的数据以文件、邮件等非结构化数据存放在企业内计算机系统的各个角落。面对这些,当万维网搜索开始束手无策的时候,无论是公司高层还是基层员工都在憧憬有自己的搜索工具,而企业级搜索引擎技术正是为了适应这种需求而诞生的。 本文对搜索引擎技术进入了深入的研究,在开源的检索工具库Lucene提供的简单且强大的API基础上,在企业异构的数量来源和分布式检索需求的环境下构建了一个企业级的搜索引擎系统,包括了检索子系统、日志子系统、预处理子系统、内容收集子系统、本地文件处理子系统、管理子系统等,其中核心模块为收集子系统、预处理子系统、检索子系统。 本文的主要贡献有: 1.对比了企业级搜索和通用搜索,指出企业级搜索面临的挑战和存在的优势。 2.重点关注了比较普遍的互联网数据、数据库数据和其它非结构化零散文本数据,利用Lucene提供的API,成功的将异构数据源数据建立了分布式的索引库,并提出了通过数据差异表进行数据库索引和文件索引增量更新的方法,提高了索引的时效性和效率。采用多个开源项目的成果对富媒体格式的资源进行了文本内容提取,提高了信息的多样性,适应了企业应用的需求。 3.提出了检索中心、检索代理以及二者之间的通信和管理模块这三部分组成的检索子系统架构,来实现分布式检索的功能,使系统具有良好的扩展性。 4.在Lucene提供的检索结果排序函数的基础上,通过调整相关参数,改进了排序结果以适应企业应用,实现了对异构资源检索结果的相关度排序。 本文所实现的企业级搜索引擎系统已成功的应用到中国电信“114号码百事通”核心搜索部分中,为电信用户提供多元化信息查询等相关增值服务,给号码百事通带来了一种全新的商业模式。
其他文献
在城市发展的过程中,城市人口以及车辆数量的不断增多,加剧了交通拥堵的局面,同时进一步加重了环境污染。为了解决这些问题,政府大力建设公共交通系统,推荐公交车作为人们首选的出
习题教学是高中物理课堂教学的一个重要课型,笔者认为习题教学不是简单的就题讲题,就错纠错,而应该注重问题和解题的生成性、拓展性.如何在习题教学中渗透生成性教学的意识呢
鲁迅的小说不仅思想博大精深,在形式上更是大胆革新,极具开创性.多种叙述视角的尝试,不同视角间的形式转换,使他的小说摆脱了传统小说视角相对单一、叙述不够直接深入的缺点,
国内外对单点登录的研究已经持续多年,存在大量的解决方案和技术突破。但这些研究主要集中在组织或企业内部,其关注点在于将小范围内的各类软件进行集成,集成的方案也多采用集中
古人云:“千里之行,始于足下”.在解题过程中,正确审题是解题的基础和关键,也是进行正确解题迈出的第一步.高中物理的学习对学生有一定难度,因为它涉及的知识面很广,包括多学
本体(Ontolog),)自提出以来受到了国内外许多科研人员的关注,特别是在计算机及其相关领域得到了广泛的应用。而一切本体的应用又是以本体的构建为基础的,本体的构建自然也成
学位
运用第一人称回顾性视角来讲述故事.作者零距离的叙事情感,使小说的语言呈现出直白而张扬的特色.叙事视角与叙事语言的完美契合表现在:第一人称回顾性叙事视角的运用使叙事语
在信息技术高度发达的今天,网络成为一个不容忽视的诗歌创作与展示平台.“星星”作为一个传统的诗歌意象,在当代网络诗歌创作中获得了对传统的继承与发展.本文从三个方面论述
黑龙江省军川农场地处我国东北边疆,属宝泉岭糖厂甜菜产区,我场地多人少,机械化水平较高,种植甜菜急需遗传单粒型种子.1985年引入79218,同时进行了品种比较试验,和大面积的
随着互联网技术、移动通信技术和多媒体技术的蓬勃发展,随着通信领域全新的市场需求和商业模式的出现,人们对网络业务的需求也逐步呈现出多样化、综合化和个性化的趋势。以软