论文部分内容阅读
计算机应用的不断发展导致了数据量的急剧增加,由于数据结构化过程受限于人工处理速度,导致非结构化数据的增长速度远远大于结构化数据。传统上使用文件目录树组织管理大规模非结构化数据的方案存在很大缺陷。文件目录树不能很好地表达非结构化数据自身以及数据之间语义关系的多样性,同时在大规模数据集下维护文件目录树的一致性会非常困难而且开销极大。因此,对海量非结构化数据的组织进行研究,成为如今迫在眉睫的问题。通过介绍分析文件目录树、索引及检索、数据库、语义文件系统等数据组织管理的方法,结合海量非结构化数据组织管理的需求(用户参与、自动化、模式提取等),设计并实现了海量非结构化数据组织管理系统MUDOMS(Massive Unstructured Data Organization and Management System)。MUDOMS通过对象模型来表示数据,使用属性值对来描述数据的特征,提供接口让用户根据理解来创建属性值对,为属性之间创建关系,记录了用户对数据的理解处理过程,系统还采用混合索引机制THLI(Tree Hash and Link-list Indexing)对属性和关系进行索引,MUDOMS还提供了热点导航,通过导航的方式来方便用户快速获取数据。根据用户习惯,系统还为用户创建了个性化的逻辑视图,不同的分类方式和显示次序的个性化逻辑视图方便用户的使用。在用户参与产生属性值对的基础上,还分析了属性、关系自动化生成和组织的策略机制。通过时间、空间和上下文等关系,可以实现属性关系的自动生成、传递,进而可以对系统已有的属性关系再进行组织。通过对比测试,MUDOMS在功能上实现了一种海量非结构化数据组织管理的方案,加入了人工智能提取语义属性。在与同类软件(百度硬盘搜索和Google desktop)对比测试中,MUDOMS对文件索引所占用的空间比同类软件降低了60%,用于索引的时间降低了70%,在内存容量允许的情况下,通过THLI索引机制对数据进行检索,性能提高了20倍。