浅谈大数据平台技术

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:llllwfny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着以AI、大数据、云计算技术的深度融合,以深度学习为代表的研究为数据更好的利用提供技术支持。为深入理解大数据技术的内涵,从大数据的定义、4V特征、体系架构等方面进行阐述。介绍了大数据的基本概念、特征,总结了云计算、系统层、算法层、应用层的核心技术及关键策略。
  关键词:大数据;4V定义;体系结构;
  一、大数据定义
  大数据这一概念目前没有统一的定义。现在业界一般认可国际数据公司(IDC)用四个维度的特征来定义大数据,即数据集的规模(Volume)、数据流动的速度(Velocity)、数据类型的多少(Variety)和数据价值的大小(Value)。具体来说,大数据具有以下4个基本特征:
  一是数据体量巨大,从 TB 级别,跃升到 PB 级别。
  二是数据类型多样。现在的数据类型不仅是结构化数据,还有以半结构化、非结构化数据为主体的,如是图片、视频、音频等多类型的数据,个性化数据占绝对多数。据统计,2012 年互联网中非结构化数据量已达到75%以上。
  三是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
  四是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。这一点也是和传统的数据挖掘技术有着本质的不同。业界将这其归纳为 “4V”——Volume,Variety,Value,Velocity。
  二、大数据平台体系结构
  从信息化角度来看,大数据系统一般由构架层、系统层、算法层、应用层四块组成。
  1.构架层
  大数据与云计算融合是技术发展的趋势,云计算解决大型数据中心的资源利用率提升和自动化运维管理,它管理的对象中显然包括需要使用大量计算资源的“大数据”系统。因此从层次上讲,云计算技术为大数据技术提供基础资源,云计算是基础设施能力(IaaS),大数据是云计算的一种服务能力(PaaS)。大数据集群是由多种角色组成的庞大的应用部署群,一般会分为部署节点、管理节点、计算节点、流计算节点、数据复制节点等,这些节点中只有计算节点因为承载了HDFS的海量数据持久化建议物理机部署外,其它节点都可以进行虚拟化部署,从而使大数据集群可以部署在云数据中心中统一管理,最终实现大数据服务的资源共享、统一管理、按需分配、动态调度。因此实际部署时,针对节点规模大的集群,可采用半虚半实的方式部署。大数据集群节点中的管理节点、流计算节点对IO的需求量不大,可以使用虛拟机方式进行部署,而计算节点对IO需求大,保留物理部署模式。同时在虚拟机中部署临时的大数据集群,在大数据业务波峰时,通过临时集群来弹性增加处理能力,分担共享大数据集群的数据处理压力。
  2.系统层
  Alluxio一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一,已成为一个大数据存储和共享平台工业标准,并成为全球发展最快的大数据开源软件系统。Alluxio的目的就是想要让计算层和存储层可以再次轻装上阵,让它们独立的优化和发展自己,而不用担心破坏两者之间的依赖。具体说来,Alluxio提供一层文件系统的抽象给计算层。这层抽象之上的计算只需要和Alluxio交互来访问数据;而这层抽象之下可以同时对接多个不同的持久化存储(比如一个S3加上一个HDFS部署),而这层抽象本身又是由部署在靠近计算的内存级Alluxio存储系统来实现。
  它适用以下场景:
  1.计算层需要反复访问远程(比如在云端,或跨机房)的数据;
  2.计算层需要同时访问多个独立的持久化数据源(比如同时访问S3和HDFS中的数据);
  3.多个独立的大数据应用(比如不同的Spark Job)需要高速有效的共享数据;
  4.当计算层有着较为严重的内存资源、以及JVM GC压力,或者较高的任务失败率时,Alluxio作为输入输出数据的Off heap存储可以极大缓解这一压力,并使计算消耗的时间和资源更可控可预测。
  3.算法层
  数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的计算过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。机器学习是数据挖掘中的一种重要工具,然而机器学习的门槛较高,数据分析人员不仅需要了解各个算法的优缺点,而且需要了解每个算法的超参数调优技巧,一个数据分析流程一般包括数据清洗、特征提取、算法选择以及模型评估等,所以被戏称机器学习为“炼丹术”。使用某种学习机制,通过AI的方式自己来调整超参数,找出最优解的思想自然产生,AutoML、AutoKeras都是此类方法的代表,使用此类方法能让用户轻松地训练高性能的深度网络,而用户无需具备任何机器学习或AI的知识就可以得到想要的数据。这种方式是今后的发展的方向,值的去进一步研究。
  4.应用层
  企业大数据应用体系其实就是在生产业务系统之外构建统一的企业级数据库。企业级数据库的建设,从技术架构上经历了从数据仓储体系到MPP数据库体系,再到现在应用较广的Hadoop架构体系。除了技术体系架构外,企业级数据库的建设还包含数据模型的建立、数据管理体系建设、数据应用体系建设,而企业级数据库的实际应用效果更多的则是依赖于企业自身数据专家库的建立以及专业机构的推动。
  三、小结
  本文结合大数据的产生背景、需求和系统结构,梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的架构体系,分析了每层的核心技术。目前大数据技术的研究还有许多深层次的问题亟待解决,如大数据4V特征中起关键作用的是什么,如何对网络数据进行实时同步,如何对数据进行结构化处理等等,需要我们用更加敏锐的洞察力来分析和研究。
  参考文献:
  [1]中国信息通信研究院 大数据白皮书 2018.4
  [2]《深入理解大数据》 黄宜华、苗凯翔 机械工业出版社
  [3]The Google File System Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung
  [4]BARWICK H.The "four Vs" of big data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].
  [5]Hadoop [EB/OL].[2012-10-02].
  (作者单位:河南省开封市烟草公司信息中心)
其他文献
摘要:小学生的体育教学不仅仅是重视一些项目的锻炼,提高小学生的身体素质,将拓展训练,加入到小学体育教学中,还能够拓展小学生的体育课程项目,改变现有的体育教学模式,并提高了体育课堂的教学质量,对小学生的体育锻炼和体育兴趣的培养有着十分重要的意义。本文主要分析了拓展训练对小学体育的重要性,提出了如何在小学体育教学中开展拓展训练,以期对小学生的体育教学现状有所改变。  关键词:拓展训练;小学体育教学;应
期刊
摘要:字符识别技术作为自动化领域的热门话题,在很多行业都发挥着重要的作用。OCR技术的一般由图像预处理,字符分割,识别三个主要部分组成。然而,此技术在金属阀门表面的字符识别的应用还很少。对于金属阀门而言,表面字符的作用是用来标识阀门型号,序列号等重要信息;在生产过程中,对表面字符的检测构成其生产制造的重要环节。本文中使用图像处理和OCR技术相结合的方法,实现了金属阀门表面的字符识别。首先使用工业相
期刊
摘要:综合录井技术广泛应用在石油勘探等钻探过程中,综合录井技术涉及范围比较广泛,所以它是多学科、多技术集成的高新技术集合体,因此它获取的钻井工程信息既可以供工程技术人员使用,也可以供地质技术人员使用,也可以为工程、地质技术人员共同使用,互为利用、资源共享。  关键词:钻井;事故原因;参数;安全  综合录井技术不仅在石油、油气等钻探过程中对预探井、探井、预探井表面及地下资源的探测有十分重要的作用,在
期刊
摘要:关于天牛(Cerambycidae),属于节肢动物门、昆虫纲、鞘翅目、天牛科的一种动物。其在幼虫期间主要以花椒(Zanthoxylum bungeanum)的树枝或是树干为食,当蛀食严重的情况下很容易使得花椒植株死亡,无论是对花椒果实质量还是其产量均会造成严重影响。所以,文章将会对防治天牛的物理手段、化学手段以及综合手段进行简要分析。  关键词:花椒;天牛虫害;防治措施  引言  据不完全统
期刊
摘要:随着我国石油开采力度的持续深入,国内石油行业获得了较大的发展空间。以油田机械采油工艺技术为代表的技术类型逐渐得到油田开采行业的全面应用,借此提升石油开采效率。结合实际的应用情况来看,应用效果较为显著。重点阐述油田机械采油工艺技术的相关概念与具体应用,旨在促进油田机械采油工艺的可持续发展,确保油田采油作业安全,仅供参考。  关键词:油田机械;采油装备;工艺技术  在石油正式开采的过程中,操作人
期刊
摘要:随着我国整体经济建设的快速发展,我国建设行业发展非常迅速,为我国经济简单奠定坚实基础。现阶段,随着我国现代化进程的不断加快,我国房屋建设行业前景良好,建筑建设项目数量也日益增多。作为直接影响工程项目质量的项目管理工作,其成本控制与管理工作也起着至关重要的作用。成本管理涉及到项目工程的每项环节,如果成本控制管理工作没能做好,就极易造成的资金的过度开销与资源的浪费。  关键词:建设工程项目管理;
期刊
摘要:作为国家基础建设中的农田水利工程建设,它是造福子孙后代的百年大计,在国家发展过程中起着重要的作用,而工程质量做为农田水利建设的重中之重,不仅关系到人民群众生命财产安全,更关乎社会经济的发展大局.本文通过对小型农田水利工作的内容进行阐述,分析小型农田水利工程建设质量管理中遇到的问题,提出对策和建议,为小型农田水利工程建设质量管理提供解决方案。  关键词:水利工程;管理;养护  前言  农田水利
期刊
摘要:林业是一种森林资源的载体,这一行业的发展形式与其他行业相比较而言有所不同,在林业工程中,苗木的培育和移植工作是重要的组成内容,不仅关系到森林覆盖率问题,而且也是城市环境绿化程度的基础工作。随着环境保护工作地位的日益加重,植树造林仍然是大力推广的有效措施,但由于地域环境的不同,木苗的生长速度和成活率都不同,因而对使用技术的要求也不相同。因比,需要合理使用林业工程苗木培育与移植技术,提升苗木的成
期刊
摘要:近几年我国林业发展取得了长足进步,但是与世界林业发达国家相比,我国森林覆盖率相对较低。林业育种栽培管理技术还相对落后,限制了我国林业的进一步发展。本文从现代林业育苗栽培管理技术的应用现状着手,发现当前应用中的不足。并结合笔者的工作经验,研究分析了林业育苗栽培管理技术运用中的重点和难点,就相关技术的具体应用进行了介绍。  关键词:现代林业;育种栽培;管理技术  林业是我国重要的产业之一,林业发
期刊
摘要:人类的发展史就是科学技术积累创新史,而大数据时代的今天为科技创新提供了得天独厚资源平台,所以科技创新要充分利用时代背景,在大数据、云计算机的基础上建设出科技创新分析应用系统,通过系统能高效的进行科技创新研究,能智能的分析出创新点、收集创新数据信息,使科技创新效率极大提升,将推动人类文明发展超乎想象的速度进步。  关键词:科技;创新;分析  人类文明在科技创新中发展,各个时代信息传播方式不同,
期刊