内存数据管理与分析关键技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:ooniono
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,数据处理的应用飞速增长,数据管理技术尤其是关系型数据库管理系统(DataBase Management Systems)被广泛应用在各个行业,例如大到航天飞行器的数据系统,小到百姓日常的购物消费系统等都和数据库息息相关。随着日益快速发展的互联网技术,尤其是伴随着未来5G市场的爆发以及万物互联的设备持续增多,数据库管理系统必将持续成为当前以及未来的研究热点。最近十多年计算机硬件的性能发生了质的提升,这其中比较有代表性的成果就是内存数据管理技术的大规模普及与应用。本文首先阐述硬件发展以及内存数据库技术发展,以及数据处理行业的几个新技术:(1)在线事务/分析混合处理,高性能OLTP事务型系统基本都是采用内存数据库作为标准实现的,事务和分析同时存在是当下很常见的业务场景,在内存数据库基础上,探索事务分析融合的系统也是当下的一大趋势。(2)数据库和人工智能的关系,数据库可以为人工智能提供很多大数据工程上的经验以及充分压榨硬件性能的经验,人工智能可以给数据库提供很多场景定制的能力。本文针对新技术,对内存数据管理针对性的提出了研究算法。
  (1)学习型的跳表索引技术:我们发现跳表作为一种基于随机算法的数据库索引技术它的性能是不稳定的。在极端情况下查找复杂度会退化到O(n),这是因为经典跳表结构没有结合数据的特征。为此,作者基于核密度估计的方式估计数据累积分布函数,预测数据在跳表中的位置,进而设计用于判定结点层数的跳表算法。另外,针对历史数据的访问频次,作者设计了一种保证频繁访问的“热”数据尽可能地在跳表的上层,而访问较少的“冷”数据在跳表的下层的跳表算法。最后,基于合成数据和真实数据对标准跳表和5种改进的跳表算法进行了全面的实验评估并开源代码。实验结果表明,优化的跳表最高可以获取60%的性能提升。这为未来的科研工作者和系统开发人员指出了一个很好的方向。
  (2)内存存储引擎异步快照技术:作者发现尽管学术界已经提出了各种快照算法来权衡吞吐量和延迟的性能,但是像Reds这样的内存数据库坚持使用简单的fork函数生成快照。为了了解这种现象,作者对主流快照算法进行了全面的性能评估。对主流算法广泛评估表明,fork的性能比学术界具有代表性的快照算法产生了更好的性能,但比Hourglass和Piggyback稍差。除此之外,作者针对更加广泛的事务处理场景,提出了虚拟快照的技术,并且开放了相应的源代码。
  (3)面向混合负载的存储引擎:作者提出了一种无等待的HTAP(WHTAP)架构,它可以以无等待的形式高效地执行OLTP和OLAP请求。作者开发并评估了一个原型WHTAP系统。实验表明,该系统可以获得与TicToc系统相似的OLTP性能,同时在分析处理上可以获得4~6倍的加速。
  (4)针对不同计算芯片的极限学习机性能评估:作为一种基于内存计算的机器学习算法,极限学习机(ELM)以其出色的学习速度而闻名。随着ELM在分类和回归领域中的应用范围的扩大,对其实时性能的需求正在增加。尽管使用硬件加速是一个显而易见的解决方案,但是如何为基于ELM的应用选择合适的加速硬件是值得进一步讨论的主题。为此,作者在三种最先进的加速硬件(即多核CPU,图形处理单元(GPU)和现场可编程门阵列(FPGA))上设计和评估了优化的ELM算法,实验结果表明GPU适合加速大型数据集的ELM算法;(2)FPGA用于小型数据集,因为其功耗较低,尤其是对于某些嵌入式应用程序。
其他文献
高光谱图像的分类应用在地质勘探,城市扩张,农业和林业监测,军事等行业中起着至关重要的作用。高光谱图像具有优良的光谱信息和丰富的空间信息,其特征质量是影响分类性能的关键因素之一。由于特征的类内差异以及广泛的光照和规模变化,分类问题仍然具有挑战性。因此,如何从高光谱数据中提取本质特征是本文的主要研究重点。主要工作如下:(1)高光谱图像由于其光谱维数高,相关性强,数据量大等特点,在特征提取方面有很大的难
学位
学位
随着互联网的快速发展,信息与通信技术的日益提高,使得基于互联网的服务与应用和人们的生活越来越密不可分。社会网络、经济、医疗保健、工业和科学等领域产生海量数据,加上网络边界的消失以及攻击类型的多样化,增加了网络入侵的风险。如果没有敏捷的安全基础设施,基于物联网技术发展的智能城市将无法可靠运行。网络入侵检测系统(Intrusion Detection System,IDS)已成为监控网络活动和检测入侵
学位
信息爆炸时代的来临和云存储的高速发展造成了数据量成倍的增长,物联网的发展也使物和物之间增多了联系,信息技术的蓬勃发展带来了社会的欣欣向荣,同时都造成了数据量日益增加,数据存储的承载量和存储设备可靠性问题受到业界人们的关注,科研人员希望寻找有效的办法来应对这类挑战。RAID-6存储系统相比其它的RAID存储系统具有更高的数据可靠性,通过纠删码在RAID中的应用,设计出高效的扩容方案一直探索的方向。在
学位
The goal of this thesis is to examine how video games are designed and to see how different game mechanics work and how to use them in the development of a game,as well as examine what are both the po
学位
In recent years, image recognition has become important in computer vision and image processing.Additionally, it is used in many fields such as driverless vehicles, healthcare, face recognition, searc
随着互联网时代的到来,社交网络已得到了极大的普及,用户通过社交网络可享受各类社交服务,如豆瓣为用户提供图书、电影、音乐分享服务,知乎提供问答服务,微博提供自媒体广播服务,用户为满足不同的服务需求,往往不会局限于单一社交网络中,而是参与到多个社交网络活动之中。因此,跨社交网络用户识别问题逐渐引起了学者的关注,跨社交网络用户识别将有效集成分散于各个网络中的用户资源,大大提高用户推荐、广告投放、用户组形
室内定位技术泛指在卫星信号无法穿透的环境提供位置信息的技术,它广泛应用于矿山、隧道、楼宇、厂房等环境,为智能感知、人员安全监管、仓储物流系统等应用提供基础位置信息。它在物联网(Internet of Things,IoT)、无线传感器网络(Wireless Sensor Networks,WSN)、信息物理系统(Cyber-Physical Systems,CPS)中都扮演着非常重要的角色。基于卫
学位
战略侦查、电子对抗、军事打击、精细农业、空中遥感和快递等诸多应用一直刺激着无人机军用与民用市场的增长。MarketsandMarketsTM预计2025年无人机全球销量从2019年约193亿美元将增长到458亿美元,其中军用无人机市场将达268亿美元。由于无人机在机上无人类操作员,导航或调整飞行姿态完全依赖于卫星信号、控制数据和机载传感器数据的实时有效传输。因此,在无人机市场快速增长的同时,其通信
2016年,国务院安委会下发《金属非金属地下矿山采空区事故隐患治理工作方案》,明确指出地下矿山开采安全管理工作的重要性。通过物联网(IoT,Internet of Things)技术在矿山部署传感器,可以实现数据的识别、定位、监管等功能,因此,基于物联网技术进行矿山安全施工监测具有重要意义。鉴于矿井下应急救援的需求,在矿井塌陷的情况下,无法采用常规的供电方式,因此现有的技术方案大多数是基于IEEE
学位