基于NoSQL的数据分析技术的应用研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:hobbycui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会每天都在不断地产生大量的数据,且蕴涵着大量待分析和挖掘的有价值信息。例如数据仓库系统中往往蕴涵了很多有价值的信息供查询和分析,通过对这些信息的分析可帮助企业做出决策。如何在节省机器资源成本的情况下快速获取这些有价值的信息以提高企业的工作效率已成为很多研究者的焦点,传统的RDBMS已经不适应庞大的数据查询和分析,主要是因为其固定的关系模型和低效的表连接操作等,制约了查询的效率,而新型的NoSQL数据库如hyperdex因为它们有着更灵活的存储模式和查询模式正适合解决此类问题,基于hyperdex构建的数据仓库性能上要远高于传统的RDBMS,但为了进一步优化查询效率,hyperdex提供了区域索引,不过当区域中的对象数量较大时,其效率并不是很高。为此,本文基于NoSQL进行了数据分析技术应用的研究,针对hyperdex原始区域索引,提出了多对象副本聚集区域索引(CMORARI)与单对象副本聚集区域索引(CSORARI),该算法将原来存储于SQL中的星型结构的cube转换成存储到NoSQL中的key value字典结构的cube。并以TPC-H SSB实际零售应用案例验证了方法的有效性,证明hyperdex在大数据仓库领域具有比较好的应用价值。主要工作包括:1.cube多对象副本聚集区域索引的建立:首先从维度表中读取所有维度记录得到维度定义域,然后遍历事实表中的每条记录,如该条事实记录在维度定义域中,则对该条事实记录的各个维度属性建立区域索引及关联该条事实记录,否则忽略该条事实记录,并读入下一条记录,重复上述过程直至遍历完所有事实记录。最终将各个属性的区域索引及其关联的事实记录存入hyperdex,由于每条事实记录要关联每个属性,所以叫做多对象副本。该算法所生成的区域索引是将原始hyperdex区域索引的多个索引项合并为一个,这既减少了索引的存储空间,也加快了索引的解析速度,进而提高了查询效率。2.cube单对象副本聚集区域索引的建立:为了减小上述区域索引方法中事实记录副本所占用的存储空间,提出将事实记录单独存储。与多对象副本聚集区域索引的建立相比,不同的是不对维度属性值与事实记录进行关联,每条事实记录只保留一份,存储在单独的hyperdex超空间中,所以叫做单对象副本。3.查询分析实现以及性能对比分析:基于上述经过区域索引后的cube进行查询的设计与实现。查询过程首先通过命令行参数指定查询条件,然后分析这些条件并执行查询API,从而得到查询结果。最后对查询实验进行了性能对比分析,论述了影响查询性能的一些因素以及改进策略,以及分析了所需额外的索引空间以及相应的改进方法,以及对实验结果的正确性进行了验证。实验结果表明,论文中为了提高查询性能所提出的基于NoSQL的区域索引改进方法是行之有效的。
其他文献
随着用户需求和网络的不断发展,人类社会积累的知识、数据急剧增加。如何从海量的事务数据中发现用户感兴趣的规则、有用的知识一直是数据挖掘领域研究者面临的一大难题,而这
随着计算机和计算技术的飞速发展,其应用已经渗入现代生活的各个领域,由于其极高的计算速度已成为科学研究必不可少的手段。其中一个典型的应用就是计算化学,计算化学极大依赖计
近年来,Internet取得了迅猛地发展,网络规模都在极具扩张,网络结构日渐复杂,网络流量高速增长。为了了解网络的运行使用情况,及时发现网络中可能存在的异常流量,需要一种有效
目前,全球企业面临着业务模式创新、多元信息整合、人才管理和业务流程透明化等众多变革。这些变革对企业的敏捷性提出了很高要求。SOA作为一种松耦合的体系架构,能够最大程
随着互联网技术和金融产业的飞速发展,网络上金融信息日益丰富,同时,人们对金融信息的需求也日益增多。金融文本的倾向性可能对相关个股或者公司股票价格走势产生重要影响,为
面向服务的架构(Service Oriented Architecture,SOA)技术广泛应用于面向服务的开发模式中,导致互联网上服务数量的大规模增长,服务类型的日益丰富,使得准确、高效地发现用户
近年来,无线Mesh网络作为一种新的网络结构受到了越来越多的人的关注。无线Mesh网络结合了传统WLAN和Ad hoc网络的优势,具有自组织性好、自愈性高、覆盖面积广、架设成本低等
双结构网络以传统的TCP/IP网络作为主结构,以添加了广播和存储功能的播存结构作为次结构,来解决互联网中共享类流量的无标度增长、内容难以监管的问题。双结构网络借助语义丰
随着社会的不断进步,网络上的资源越来越丰富,这给人们带来方便的同时也带来了不便,因为人们在大量的信息中快速的找到自己所需要的信息变成了一件很困难的事情。在计算机学
本文从硬件和软件方面阐述了基于指纹识别的学生信息管理系统(SIMS)的设计与实现原理。通过对系统总体构架的分析,把系统分为任务管理中心和端系统两个子系统,并对两子系统的外