论文部分内容阅读
企业级搜索是用户搜索习惯在组织中的延伸,是一种随着搜索引擎的普及和习惯的养成后逐渐形成的一种组织的需求,即在组织内整合获取工作所需信息的需求,包括企业、网络媒体、政府机关、教育科研等,属于搜索引擎的高级应用。企业用户对信息的需求不仅仅限于简单的查询结果,而是结合搜索、数据库查询、语义和句法分析、分类和聚类、相关性分析等技术,整合现有的信息资源,提炼出具有商业价值或社会价值的数据支持。
企业级搜索从实质上已经超越了简单的Search——单一搜索的概念,而进入了内涵与应用都更为丰富的信息内容获取、组织与传递技术。从这个角度来说,企业级搜索的本质就是对于非结构化数据的运算,是建立基于内容逻辑的非结构化数据的关系体系,从而在这一关系基础上实现更多更丰富的应用和操作。即在非结构化数据应用中实现如现代关系型数据库在结构化数据中的应用。
本文分析了八个国内外提供企业级搜索服务平台的产品的特点。其中国外的产品有:挪威企业FASTSearch&Transfer公司的FASTESP系统、英国企业Autonomy的IDOLK2系统、美国公司Endeca的TheEndecaInformationAccessPlatform系统、IBM的OmniFind系统、Oracle的OraclSecureEnterpriseSearch10g系统,国内产品有:百度公司的BaiduESP系统与TRS拓尔思的企业搜索引擎服务平台等产品。
通过对上述这些企业级搜索产品的分析,我们可以发现它们在企业级搜索平台系统中的基本架构都由信息获取环节、信息分析标引环节、信息加工处理环节、信息服务环节、丰富的接口层等基本环节构成。这些环节集成了对整个企业或组织的各种信息进行采集、监控、分类、检索、流转、分析、权限控制及安全控制的各种功能模块,构建起了能够对组织内非结构化数据综合处理和应用服务的企业级搜索平台。
因此,中文企业级搜索平台CESP即在综合国内外相关企业级搜索技术与产品和国内用户对中文企业级搜索产品的典型需求的基础上被适时地提出。
中文企业级搜索平台是一个以中文处理,兼顾多语种搜索技术为核心的非结构化数据运算与操作平台,为用户提供各类信息的综合处理和传递获取服务。它从整体架构上分为:数据获取层、通用数据网关、数据分析处理层、管理系统、接口层和应用插件层等部分。每部分由相关的功能模块构成,形成独立的模块化组件架构,可以根据用户的需求选择采用不同的组件模块进行组装,构建起符合用户需求,为用户量身定制的中文企业级搜索应用服务系统。