高职院校大数据实训平台建设与应用研究

来源 :中国信息化 | 被引量 : 0次 | 上传用户:OMG168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着移动互联网、物联网、社交网络等应用的快速发展,传统教育基础设施存在安全性低、配置复杂、升级成本高等一系列问题,数据的集中管理和维护变得困难,对组建新的基于云计算的教育信息化基础设施提出新要求——进一步建立教育信息化公共服务平台。随着大数据技术的快速发展,其在社会各个领域中得到了广泛的应用,主要用于数据分析和处理,这样不仅可以满足时代发展需求,而且还可以更好的推动经济社会发展。
  国务院常务会议于2015年通过了《关于促进大数据发展行动纲要》,其中明确提出:“创新人才培养模式,建立健全多层次、多类型的大数据人才培養体系 ”,强调了大数据这一基础性战略资料的重要性,教育部高等教育司也于 2016年面向高职院校的专业设置中增加了“大数据技术与应用”专业。为此,一些高校也设置了大数据的相关专业,在一定程度上推动了大数据产业的发展。由于大数据专业属于时代发展的新型专业,虽然一些高校已经开设了该专业,并对其进行了不断的摸索和创新,但是缺乏可供直接借鉴和套用的模式。因此,本文将会立足于大数据人才培养要求和社会人才需求,结合硅湖职业技术学院大数据相关课程和大数据实验室来对大数据实训平台建设与应用情况进行分析和探究。
  一、大数据实训平台设计
  (一)大数据处理平台
  Apache开发的 Hadoop分布式系统基础架构,能够为整个实训平台提供所需要的数据支持。该处理平台除了提供包括分布式文件系统和分布式计算框架MapReduce。HDFS和MapReduce分别为海量数据提高数据存储和数据技术,实现了计算与存储的高度耦合。伴随Hadoop项目结构的不断发展,逐渐形成了一个丰富的Hadoop生态系统,主要有:安装部署工具Ambari、作业流调度系统Oozie、数据仓库Hive、内存计算Spark、资源调度管理框架YARN、数据库TEL工具 Sqoop、分布式海量日志分析工具Flume、分布式协调服务Zookeeper、分布式数据库HBase、分布式文件存储系统HDFS、离线计算MapReduce、DAG计算Tez、等主流组件。为了确保实训工作的顺利进行,并能够从大量无序的海量数据中更准确、更稳定、更快速、更可靠地挖掘有价值的信息,则需要在易管理性、安全性、高可用性等领域来进一步优化大数据处理平台。
  (二)在线教学管理平台
  该平台对现有在线学习系统的功能进行了借鉴和引用,并选择了B/S架构,从而实现对实训教材、教学课程、教学资源库等开展访问授权和集中管理。同时,也增设了在线测试、在线评估等辅助功能,从而使教学质量得到有效提升。
  (三)云件服务平台
  在大数据领域,云计算技术属于一项关键技术手段。该平台可以借助互联网技术来为用户提供云端服务,与传统邮箱、网盘和在线办公等软件进行对比发现,云服务平台不仅对桌面软件进行了改造,而且本地软硬件需要依赖于大量的计算支持。实际上,云服务平台也是一种SaaS的服务方式,其通常将终端的运行环境和操作系统迁移到云端。并借助统一的交互平台来确保交互功能的顺利实现。同时,云服务平台还能够像在线互动教学平台一样,借助虚拟教学桌面来为广大师生提供在线测试、资源共享、分组讨论等功能,从而确保课堂教学活动的顺利进行,有效提高教学质量;虚拟实验桌面还可以为师生提供实验应用环境和Hadoop部署环境,以确保大数据基础理论教学和实训工作的顺利进行。
  (四)虚拟化实训平台
  通常情况下,大数据技术需要依赖于虚拟化技术的支撑,并且在开展实训操作阶段,各类大数据组件的数据分析、安装部署等操作都是在虚拟机上开展的,该平台可以提供虚拟化网络环境设置、虚拟机的创建与配置、存储资源分配等管理功能,以确保实训人员能够顺利的完成实训操作。
  (五)算法建模平台
  数据可视化建模和大数据分析一般是大数据技术具体应用的直接表现。数据可视化的主要工具有:Excel、SPSS、Tableau。算法建模分析平台集数据可视化建模功能和大数据分析功能为一体,并支持典型的数据分析算法,以确保实训人员能够直接通过以拖拽方式、图形化组件等方式搭建数据分析模型,使大数据建模难度有效降低。
  (六)教师、学生和管理员用户平台
  教师端。包括:实训课程内容、实训管理、管理学生、查看学生算法、成绩管理、上传实训文件、实训报告管理。教师可以登录教师用户平台,来查看实训课程、系统运行环境及实训内容。课程管理涉及到一系列的基础课程,此时教师就可以根据实际情况来筛选课程内容,以确保课堂教学活动的顺利进行;同时,教师还可以借助课程内容管理模块,来编辑和管理课程知识点内容,并做好课程的拓展和维护管理工作。
  学生端。包括:查看和阅读实训指导书、算法和实训报告提交、算法对比和算法演示分析、修改学生个人信息、查看成绩。通过登陆账号,学生可以查看与本人相关的课程情况,并完成对相关课程的学习。课程一般包含实训系统、实训指导书及实训成果等相关内容;进入实训菜单,能够对实训文档、实训手册填写情况、实训的视频文件进行查看;实训报告提交后,也可查看到任课老师的具体评分及实训笔记等情况。
  管理员用户平台。包括:学习资源、运算节点的管理、学生计算作业、查看具体进度进展、强制关闭系统。通常情况下,管理员在登录管理员平台后,能够查看课程、内容、账户、系统等选项。系统管理模块通常可以查看运行设备、检测系统、容器环境等的状态;内容管理模块通常是对教师和系统提供的内容进行管理与维护;课程管理模块通常是对基础和拓展内容进行管理与维护;用户管理模块通常是对学生和教师的账号进行管理。
  二、大数据技术
  (一)大规模并行处理(MPP)数据库
  在数据库非共享集群中,任何一个节点都有独立的内存系统和磁盘存储系统,根据应用特点和数据库模型可以把业务数据划分到各个节点上,并借助商业通用网络或专用网络实现每台数据节点的互相连接和彼此协同计算。实际上,非共享数据库集群具有高可用、高性能、可伸缩性、资源共享、优秀的性价比等优势。在MPP中,数据加载可以并列运行,并保证所有节点能够同时对数据进行读取,并根据散列算法,来获取自己所需要的数据信息,然后以网络的方式把节点数据传输给目标节点,从而实现对高速数据的有效加载。   (二)分布式数据挖掘(DDM)
  在20世纪90年代后期DDM开始被人所关注,其一般是借助分布式计算机来对分布式数据资源进行有效的挖掘,并对局部结果进行整合。通常情况下,DDM的实施并非都以站点间纯粹独立挖掘方式为主,如果某个(些)站点的计算、存储和通信能力比较强时,能够对其他站点的数据资源进行有效的汇聚,从而形成“局部集中、全局分布”挖掘方式。同时,DDM中的数据并非全部来自于分布式数据源,对于既拥有分布式站点,又拥有海量集中数据的组织而言,其能够把数据分散到各站点,并借助站点资源来开展分布式挖掘,从而有效提高数据的挖掘效率。
  三、大数据技术分析工具
  (一)R语言
  R语言是一个用于数据处理、统计计算和统计制图的优秀工具,具有卓越的作图功能的软件系统。是属于GNU系统的一个自由、免费、源代码开放的软件系统。对于R语言而言,其具有比较强大的统计分析功能,可以更好的满足大数据处理环境。通常情况下,语言一般是以R软件包的方式来对统计分析和数学计算工具进行发布,以确保开发者可以在開放环境中对各类数据进行灵活地处理,并结合用户特点来构建统计计算模型,以确保数据处理工作的顺利进行。例如在 Hadoop中,通过对TB和PB量级数据的处理,能够得到GB量级数据,其可通过MapReduce处理,将被缩小后的数据再放在R语言中利用信息传递接口MPI进行计算处理,大大提高了数据处理的效率。
  (二)Python语言
  Python是一种完全面向对象的语言。任何计算机编程语言都有其相对比较适用的领域,例如,R语言在数据分析与制图领域广泛应用,Java在系统开发领域广泛应用,Matlab在数值计算及矩阵运算领域广泛应用,Python语言在大数据的策略分析领域广泛应用。其中,Python语言也包含了R语言所具备的数据挖掘功能,在进行大规模数据处理过程中发挥着重要的作用。为了更好的方便于更多的人员能够使用大数据支撑平台,Python还融入了Jupyter开发环境,此时可以借助Jupyterlab编写Python代码,进而实现与大数据平台的有效交互,完成对复杂大数据的系统分析。此外,Python语言还能够有效的集成Fortran、C/C++语言的代码,并对其应用功能进行了有效的扩展。
  (三)Spark
  Spark是通过Scala语言实现的,Scala语言是能够像操作本地集合对象一样轻松地操作的分布式数据集,是一种面向对象、函数式编程语言。Spark是向无环图DAG执行引擎,以支持循环数据流与内存计算。它在内存中处理数据的速度相较于MapReduce快大约100倍,它在磁盘中处理数据的速度相较于MapReduce快大约10倍。
  Spark不仅支持Scala编写应用程序,而且支持Java、Scala、Python、R、SQL。它提供了80多种高级特性用于交互式并行计算。
  S p a r k可以运行在多个地方,例如可以运行在 Hadoop的Yarn上、Apache Mesos上、Kubernetes上、standalone或云上。Spark还可以访问多个数据源,比如:HDFS、Cassandra、HBase、Hive等数百个其他数据源中的数据。
  四、结语
  总之,随着物联网、云计算、大数据、移动互联网等科学技术的发展,有效的推动了教育信息化建设的发展,而大数据技术实训平台的建设,充分利用了在线学习平台的应用功能,将大数据实训的各个环节连接到一起,使得大数据实训服务变得更方便便捷,随时随地可用、迅速启动和完成。有利于提高学生专业素质和就业技能,培养立足社会需求的大数据人才,达成良好的社会经济效益等。
其他文献
作为新型城市管理模式,数字城管于2005年在我国开始试点建设,并于2006年在杭州开始建设。数字城管系统利用信息技术构建联动管理信息平台,通过建立组织框架、信息采集、限时处理与考核制度等,快速且高效地处理城市养管问题。同时,杭州还拓展了信息采集市场运行机制,因地制宜地创造了“代整治”、“备货制”等新举措,形成杭州城市管理特色制度。一、杭州数字城管运行模式与工作机制  杭州数字管理系统通过设立四个层
期刊
时间飞逝,步履匆匆,转眼又到岁末。蓦然回首,深感2018年真是多事之秋,从改革进入深水区经济发展问题叠加,到中美贸易谈判一波三折;从产业转型艰难到民营企业发展困难;国际问题复杂变幻,国内产经难题频出,一惊一乍,忧喜交加,令人困惑与彷徨;然而,回望我国信息化的发展进程,2018却是可圈可点、成果丰硕。  基础设施建设取得新进展。2018年我国信息化基础设施进一步完善。11月初乌镇峰会发布的《中国互联
期刊
对于工业互联网来说,2018年经历了如过山车般的跌宕起伏。从年初各方面大力呼吁快速推进,到年终GE出售Predix、富士康工业互联网换帅,一系列过程看起来眼花缭乱,让人有些看不明白,工业互联网到底应该何去何从?  我们先来看看GE为什么要出售Predix。自从大名鼎鼎的伊梅尔特离职以来,业绩的压力让GE选择了业务缩身。通过出售与GE Digital有关的部门,GE的业务得到了聚焦,企业财报也大有起
期刊
近日,在百分点集团召开的E轮融资发布会上,百分点董事长兼CEO苏萌表示:“企业级信息技术将成为未来企业发展的主战场,在DT时代中国必然会成长出世界级的软件企业。”  我们正在经历数字世界对现实世界的重塑,大数据、人工智能、物联网、云计算,科技在深刻改变生活的同时也在悄悄对企业发展的规律进行修改。  从不知道云计算为何物到百万企业上云不过10年时间,三年前,阿法狗和李世石的人机大战引发人工智能是否会
期刊
某养殖户给300头猪上了保险,但实际上他一共饲养了500头猪。如果遇上自然灾害或者疫情,有大量的猪死亡,保险公司该如何辨别死去的猪哪些是上了保险的,哪些是没上保险的?以前这是个无法完成的命题,而现在这已经不是问题。因为,平安保险已经基于大数据和人工智能技术推出了“猪脸识别”的应用。  这是平安医疗AI平台总经理、平安医疗信息安全所所长谢震中在参加英特尔公司举办的“2018数字创新行业峰会”时讲的一
期刊
一、互联网与“大健康”的结合成为时代的必然  自 “互联网+”的概念提出以来,如何结合“互联网+”发展,成为许多行业发展的新的着力点。近几年来,在互联网(包括移动互联网、物联网等)与实体产业的结合中,也在不断诞生新业态和新模式,对经济社会发展起到了积极的促进作用。  大健康是目前炙手可热的话题。国家“十三五”规划明确提出了“推进健康中国建设”; 2016年全国卫生与健康大会上,习近平同志强调,要把
期刊
一、引言  2016年4月14日,国家发展改革委、财政部、教育部、公安部、民政部等10部门联合发布《推进“互联网+政务服务”开展信息惠民试点实施方案》,提出了拓展“互联网+政务服务”渠道,构建群众办事统一身份认证体系,推进群众网上办事“一次认证、多点互联”,基本实现政务服务事项“一号申请 ”、“一窗受理 ”、“一网通办”的目标。为解决群众办事过程中的“办证多、办事难”、“循环证明”,以及 “多头跑
期刊
推动互联网、区块链、大数据、人工智能、云计算等与实体经济广泛深入融合,是新时代实现信息化与工业化深度融合的主要任务。  近期,不少业界专家在相关场合提到,新一代信息技术ABCD正在改变世界,A即AI(人工智能),B即Blockchain(区块链)、C即Cloud(云计算),D即Data(大数据),这些技术都已经拥有成熟应用,推动这些技术与实体经济更加广泛的融合,将大有可为。  其实,党的十九大报告
期刊
這边厢云计算已经进入下半场,巨头们纷纷转战行业云市场。那边厢工业互联网领域刚刚开局,虽然近期迎来了密集发布的政策支持,制造巨头们也纷纷入局,但表面花团锦簇并不意味着此后会一马平川。  有时候从蓝海到红海只不过一瞬间,更何况制造业转型升级的复杂程度超乎想象。究竟工业互联网该如何破局?这个问题值得我们认真思考。  政策红利机遇挑战并存  2018年6月可谓是进入了工业互联网的政策密集落地期,月初《工业
期刊
企业上云是企业基于自身业务发展和信息技术应用需求,使用计算、存储、网络、平台、软件等云服务,优化生产经营管理,提高业务能力和发展水平的重要途径。日前,工业和信息化部印发了《推动企业上云实施指南(2018-2020年)》(以下简称《实施指南》,指导和促进企业运用云计算加快数字化、网络化、智能化转型升级。  一、背景情况  党的十九大报告指出,我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展
期刊