海量非结构化数据的组织研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:madywu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机应用的不断发展导致了数据量的急剧增加,由于数据结构化过程受限于人工处理速度,导致非结构化数据的增长速度远远大于结构化数据。传统上使用文件目录树组织管理大规模非结构化数据的方案存在很大缺陷。文件目录树不能很好地表达非结构化数据自身以及数据之间语义关系的多样性,同时在大规模数据集下维护文件目录树的一致性会非常困难而且开销极大。因此,对海量非结构化数据的组织进行研究,成为如今迫在眉睫的问题。通过介绍分析文件目录树、索引及检索、数据库、语义文件系统等数据组织管理的方法,结合海量非结构化数据组织管理的需求(用户参与、自动化、模式提取等),设计并实现了海量非结构化数据组织管理系统MUDOMS(Massive Unstructured Data Organization and Management System)。MUDOMS通过对象模型来表示数据,使用属性值对来描述数据的特征,提供接口让用户根据理解来创建属性值对,为属性之间创建关系,记录了用户对数据的理解处理过程,系统还采用混合索引机制THLI(Tree Hash and Link-list Indexing)对属性和关系进行索引,MUDOMS还提供了热点导航,通过导航的方式来方便用户快速获取数据。根据用户习惯,系统还为用户创建了个性化的逻辑视图,不同的分类方式和显示次序的个性化逻辑视图方便用户的使用。在用户参与产生属性值对的基础上,还分析了属性、关系自动化生成和组织的策略机制。通过时间、空间和上下文等关系,可以实现属性关系的自动生成、传递,进而可以对系统已有的属性关系再进行组织。通过对比测试,MUDOMS在功能上实现了一种海量非结构化数据组织管理的方案,加入了人工智能提取语义属性。在与同类软件(百度硬盘搜索和Google desktop)对比测试中,MUDOMS对文件索引所占用的空间比同类软件降低了60%,用于索引的时间降低了70%,在内存容量允许的情况下,通过THLI索引机制对数据进行检索,性能提高了20倍。
其他文献
随着网络的发展,信息呈几何级增长,而网络信息资源的载体多种多样,加上所处的平台及其使用的语言和标准并不一致这就给各个领域信息资源的管理和使用带来了诸多困难。人们面
回归测试的主要目标是在程序修改后,通过在原有测试用例集中选取部分或全部可用用例,只对修改的部分重新测试。这样既可提高测试效率,又能达到与完全测试相同的测试覆盖。回归测
分类是数据挖掘领域研究的重要课题。常用的分类模型有决策树、神经网络、遗传算法、粗糙集等。本文主要研究决策树ID3算法及其改进算法。首先阐述了决策树的相关理论,并对几种典型的决策树算法进行了分析比较。然后,针对ID3算法存在的不足,提出了基于属性优先关联度的ID3算法(AID3),实验证明AID3算法加快了决策树的构建速度,同时也克服了ID3算法往往偏向于选择取值较多的属性的缺点,随着数据规模的增大
关系数据库的关键词检索技术(KSORD)将使用户不需要任何SQL语言和底层数据库模式的知识,就像简单地使用搜索引擎查询Web一样来获取数据库中的相关数据。KSORD成为目前数据库
学位
虚拟试验支撑框架(VTF)是一种分布式仿真试验体系结构。VTF应用系统的数据记录回放能够为仿真试验的事后分析评估和显示提供数据支撑。由于VTF应用成员接口需要依据其VTL文件
随着计算机图形学的发展以及计算机性能的提高,三维模型已成为继声音、图像、视频之后的第四种多媒体数据类型,在虚拟现实、动画游戏、生产制造等领域得到了广泛地使用和研究
基于PTZ摄像机(智能一体化球型摄像机)的运动目标跟踪是计算机视觉研究的核心内容,在军事视觉制导、机器人视觉导航、工业产品检测、医疗诊断、交通监视等领域有着非常重要的实
随着科学技术的迅速发展和经济的全球化,软件开发出现了新的特点,软件的需求经常发生变化,强烈的市场竞争要求快节奏地开发软件,从而导致敏捷软件开发的出现,相对重量级软件
嵌入式计算理论和体系结构的研究始终拥有强大的应用需求背景,物联网、智能电网、智能医疗、智能性消费性电子、智能建筑、智能汽车、环境监控的兴起,为嵌入式带来了巨大的发