论文部分内容阅读
在复杂工程系统中,监测系统将分布着的各种类型的系统数据进行整合,实现资源共享和整体操控。这也就造成了在该监测系统中数据量较大,维度高,数据类型多。其中,数据量大是最为突出的问题,其不止包括海量的历史运行数据,还包括在评估系统或子系统工况时需要在可接受时间范围内检索到大量数据。并且在复杂工程系统中,通过经验的积累,会形成相当多的以中文文档形式出现的数据,这一类非结构化数据用于解释系统的特性,以及各设备的数据特征表明的问题以及解决办法。在利用复杂工程系统海量数据的过程中,首先要从数据库或者数据文件中将大量的目标数据准确快速的检索出来,满足上层应用对数据的处理分析,以支持决策层对工业流程的一个全程把控。如何更实时准确的完成数据的检索,有着相当重要的实用价值。对于结构化数据,通常采用RDBMS(Relational Database Management System)技术来管理。在对结构化数据的检索效率研究过程中发现,由于传统数据库受到磁盘机械旋转定位时间长和I/O等限制,不能满足数据处理的时效性的要求。针对结构化数据的组织和管理,结合现阶段内存容量不断增大并且有大量内存空间被闲置的情况,本文研究了主存数据库的数据存储结构和索引技术等关键技术。并从高速缓存的行对齐和范围查询的角度提出一种优化的T树索引算法。以此建立数据的内存副本,通过内存的高速有效的访问,提升数据的检索时间效率。对于中文文档的全文检索,主要关心检索的准确性问题。影响检索准确性的主要原因是对中文文档的语义分词准确性和高效性。为了满足实用性要求,本文提出了一种基于词典和统计的中文分词算法。该算法主要流程分为预处理、初分、歧义消除、规则修正。在初分模块中,针对二字词及二字以上词占语料库的绝大部分的情况,采用双字哈希词典机制,提升初分的效率。对歧义字段的检测,提出一种优化的双向最大匹配检测算法。利用基于统计的方式消除歧义。最后,通过一个人工的规则库,对分词结果进一步修正。使检索尽可能的按照自然语言的语义返回结果。最后以一个某航天发射中心监测系统检索为需求,基于本检索模型,部署检索模块。进一步验证了本检索模型的实用性。