基于角色的站内搜索引擎的研究和实现

来源 :中国科学院新疆理化技术研究所 | 被引量 : 0次 | 上传用户:chinaiddm599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,以满足自己的需要。全文检索技术是信息处理的领域中的重要技术,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。   在全文索引方面,本文引入了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新,并根据其特征,设计了优化的查询策略。而且,本文也对访问控制技术尤其是基于角色的访问控制模型进行了研究分析,将全文检索技术和基于角色的访问控制技术结合起来。本文的重点放在了全文检索技术的应用上,对如何利用新技术、改善检索系统的结构、一提高检索系统的性能和效率、加快检索速度、不断适应网络信息发展等方面做了重点研究。   本文使用了基于Java的全文索引引擎Lucene软件包,详细说明了基于角色的站内信息搜索系统的开发过程和方法。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其进行剖析研究进行二次开发,是很有实际意义的工作。在应用方面,本文主要工作是站内全文数据库的设计和实现.其检索子系统在文档数据加工、信息抽取及分类等工作的基础上,完成了索引器、检索器的设计等内容,最终实现了全文检索功能。
其他文献
USB总线因其高速、方便的特点,已经逐渐取代传统的低速总线,成为一种应用最为广泛的外设接口标准,越来越多的计算机外设开始采用USB接口。与此同时,共享USB设备的需求也变得越来
非结构化文本的实体解析对于综合多源数据挖掘实体信息具有重要的意义。伴随着大数据时代的到来,这一问题遇到了新的挑战:如何高效有效地进行大规模的实体解析。基于现有分布
在互联网技术高速发展的带动下,人类社会正逐步走向大数据时代,随着数据规模的指数级增长,数据间依赖的复杂度增加,传统关系型数据库系统已经无法满足某些新的应用场景的需求。基
为了加速对外围存储设备的访问速度,操作系统通常将设备中的部分数据暂存在内存中供需要时使用,这部分存放外存储设备数据的内存就叫做Buffer 在操作系统中,Buffer Cache是影
数控系统作为一种典型的强实时系统需要严格的实时处理功能和性能以及高可靠性。数控系统主要由各控制器中的周期性实时任务来完成实时控制,实时控制的正确性不仅仅依赖于计
网页中包含着大量的HTML结构信息、超链接和噪音信息,因此网页分类可以看成是半结构化的噪音环境下的文本分类问题.在互联网迅猛发展的今天,网页分类可以在较大程度上消除网
基因组测序技术为生物学研究提供了基础数据,从而有力地推动了对生命活动规律的理解与认识。然而由于受限于测序技术,测序仪每次只能读出基因组上一个短片段,而不是一次读出完整
射频识别(RFID)技术,是一种利用射频通信实现的非接触式自动识别技术。RFID技术应用于物流、制造、公共信息服务等行业,可大幅提高管理与运作效率,降低成本。RFID中间件扮演RFID
Web服务(WebServices)是构造下一代分布式计算平台的基本技术。单个Web服务所能够提供的功能有限,服务复合(ServiceComposition)通过组合现有的Web服务从而创建新的、高层的We
学位
随着中国科学院沈阳计算所自主研发的SIPSYS系统的逐渐成熟,由SIPSYS运营管理系统所提供的单一的运营模式,已经不能满足运营商提出的多种不同的业务需求。怎样对SIPSYS服务器