论文部分内容阅读
随着金融行业自身信息化水平的不断提高,越来越多的金融业务以信息化方式提供着监管与服务。在这些业务数据中存在着大量非结构化信息,如何快速的从海量的非结构化数据信息中获取有价值的内容并加以应用是金融企业在信息管理中面临的问题。传统的全文检索技术虽然能够满足根据关键字快速查找匹配资料的需求,但存在以下缺点:无法完成具有异源异构特性的非结构化信息数据整合;无法根据查询要求对需求的信息进行语义分析与推理;在检索结果中存在过多的无价值与不相关信息。为了解决这些问题,本文在非结构化信息管理架构UIMA(Unstructured Information Management Architecture)规范和全文检索技术的基础之上,提出了一种基于语义的非结构化信息检索方法。该方法首先对金融企业异源异构的非结构化信息数据源进行整合,并通过内容管理系统CMS(Content Management System)对信息资源进行统一管理。然后利用可扩展的UIMA框架实现对这些非结构化金融信息资源的数据获取与扩展化数据分析,并应用Lucene索引技术实现对数据内容和分析结果的序列化索引。在信息检索中,该方法在传统搜索模型的基础上,引入本体概念,提出了一种基于领域本体的检索模型,通过构建基于OWL(Web Ontology Language)标准的金融领域本体库实现基于语义的信息检索。以基于语义的非结构化信息检索方法为依据,本文提出了基于语义的金融企业非结构化信息检索系统设计方案,根据该方案设计与实现了一个应用系统FUIRS(Financial Unstructured Information Retrieval System)。FUIRS由非结构化信息内容管理子系统、分析子系统、内容索引子系统、关联检索子系统四部分组成。内容管理子系统负责对金融企业异源异构数据的整合与管理。分析子系统负责获取内容管理子系统中的数据信息并实现可扩展的数据分析。内容索引子系统负责对数据进行索引与存储。关联检索子系统负责基于语义的信息检索,并提供用户访问的可交互搜索平台。通过FUIRS系统,金融企业能够有效的整合非结构化信息资源,实现业务数据的内容分析应用,并通过本体技术为金融企业用户提供高效的数据检索服务。本文通过单元测试、性能测试两种方法对FUIRS的核心功能模块与系统运行性能进行了测试,同时根据其特点在应用案例中对FUIRS的信息检索功能进行了数据验证,结果表明基于语义的金融企业非结构化信息检索系统设计方案在实践中是可行并有效的。与传统的全文检索系统相比,FUIRS系统具有以下特点:实现了对非结构化数据源的有效整合与内容获取;基于金融企业特点构建,支持业务数据内容的扩展化数据分析与应用;使用基于OWL标准的本体技术,在检索中支持语义分析与推理功能,使得用户能够获得更全面、准确的信息。