面向用电数据的HDFS数据读取策略

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:glad8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着智能电网的发展,数据的访问并发量在不断增加,如何对这些海量的用电数据进行高效读取是现今电力企业亟待解决的问题。文章在基于HDFS读策略的基础上,提出一种面向用电数据的HDFS数据读取策略。综合节点的网络距离、带宽利用率和CPU使用率3种因素,通过评判函数找出性能最优的节点并进行访问。实验验证,该策略可以有效提高数据的读取效率,提升了数据的读性能服务。
  关键词:用电数据;HDFS;智能电网;读策略;读取效率
  随着信息技术的飞速发展,大数据时代己走进了人们的生活。由中國信息化专委会发布的《中国电力大数据发展白皮书》报告中显示,电力大数据已呈现出“数字摩尔时代”的发展趋势[1]。为了能够实现与居民用户的实时交互,电表业务的数据采集频度由现在的每月提高到每日,甚至每小时[2-3]。随着用电信息采集系统的数据越来越多样化,用户对数据的访问并发性也越来越高,如何对数据有效地读取是当今电力企业急需解决的问题。而分布式文件系统(HadoopDistributed File System,HDFS)作为云存储的基本架构,将其结合到电网领域当中,可以有效地解决电力大数据的读取速率慢、访问时延大等问题。目前有不少的学者对HDFS读取过程策略进行了相关的研究。陈佳[4]通过将灰色优势分析应用于HDFS系统中,根据用户的历史访问数据的规律来预测下一次的被访问到数据节点,从而有效提高了数据的访问速率。李强等[5]通过分析HDFS数据的存取与读取的过程,提出一种基于HDFS的数据随机访问策略。通过在数据节点添加本地数据访问接口,为数据块添加了管理权限,提升了数据的读与写的性能。
  本文通过详细分析HDFS文件的读流程,在HDFS读策略的基础上进行优化,综合候选数据节点的多个指标,评判出候选节点群最优的数据节点进行读取数据,可以有效提高数据的访问速率,也提升了系统的服务性能。
  1 HDFS读过程
  在HDFS中,客户端访问HDFS文件主要有以下几个步骤,具体如下。
  (1)客户端发送读数据请求,打开HDFS文件系统:客户端首选调用open方法来打开HDFS文件系统,通过RPC协议远程调用Namenode节点并进行交互得到所有数据块所在的Datanode节点信息。
  (2)通过调用get Block Locations方法获取访问数据的起始数据的所有数据节点位置信息,名字节点返回来的数据节点队列是以数据节点与客户端距离远近进行排序。
  (3)客户端通过调用read方法从步骤2选出的Data node节点进行读数据,Data node里面的数据块通过以数据包(packet)形式通过数据流管道传输到客户端上,当发送数据包的总大小达到一个数据块时,接着继续调用文件剩下的数据块。
  (4)当客户端成功的读取文件所有数据块后,调用clo se方法关闭数据流,整个数据的读流程结束。HDFS读流程如图1所示。
  2 一种面向用电数据的HDFS数据读取策略
  分析HDFS读取原理可知,HDFS在选择数据节点进行读取数据时,只考虑了数据节点离客户端距离远近,这易造成离客户端近的数据节点出现热点问题,造成网络拥塞。因此本文提出的策略基于候选节点的网络距离(D)、带宽利用率(Bu)及CPU使用率(Cu),从而选出性能最优的节点进行访问。
  首先定义评价值P,代表每个节点的性能。其详细定义如式1下:
  P= αD+βBu+γCu
  (1)
  其中α,β,γ分别是网络距离、带宽利用率及CPU使用率的权值因子,α,β,γ的取值由各个因子的偏重程度决定,偏重程度越高的对应的权值因子就越大,且α+β+γ=1。从式1可知,当P值越大时,说明对应该数据节点的性能就越好,从而提供的数据读取效率就越高。
  3 测试与分析
  在本次实验当中,取出一个文件,对它采取不同的访问量进行测试其相应的响应时间,响应时间越快,说明访问的速度越快。在本次实验当中,采取的访问次数分别为30,40,50,60,70,80,并统计出其平均响应时间,并和HDFS原策略进行对比,对比效果如图2所示。
  从图2可看出,文件的访问量在较小时,两种策略下的响应时间差异性不是很大,但随着该文件的访问量不断加大时,本文提出策略的响应时间快于HDFS原读取策略。这是因为HDFS原读取策略只考虑距离的原因,离客户端越近的数据节点在数据传输的时候易出现拥塞,造成了数据延时,而本文策略综合考虑节点的离客户端的距离、带宽利用率和CPU使用率,选出最优的节点进行读取数据,从而提升了数据的访问效率。
  4 结语
  本文策略以选取节点的离客户端的距离、带宽利用率和CPU使用率为评判因子,通过评判函数评判出每个节点的评判值,通过评判值选出性能最优的数据节点进行读取数据。研究表明,该策略有效提升了数据的访问速率,提升了系统的服务性能。
  [参考文献]
  [1]张沛,杨华飞,许元斌.电力大数据及其在电网公司的应用[J].中国电机工程学报,2014( Sl):85-92.
  [2]宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J]电网技术,2013 (4):927-935.
  [3]胡江溢,祝恩国,杜新纲,等用电信息采集系统应用现状及发展趋势[J].电力系统自动化,2014(2):131-135.
  [4]陈佳.基于灰色优势分析的HDFS数据读取方法方案设计[J].电脑迷,2017 (4):165-166.
  [5]李强,孙震宇,孙功星.一种面向HDFS的数据随机访问方法[J]计算机工程与应用,2017 (10):1-7.
其他文献
事件2007年11月,达能在英属维尔京群岛(以下简称BVI)和萨摩亚对与娃哈哈非合资公司的外方股东提起诉讼,起诉对方与娃哈哈联手对达能进行欺诈,并请求法院立即对这些被告的资产进行
培养应用型人才是高职院校的主要目的,高职毕业生必须具备很强的实践能力,以及基本的理论基础知识,不仅要掌握专业课知识,也要在毕业后有更好的继续学习、自我提升的能力。这
全面应对大数据的挑战需要来自存储技术、下一代网络、处理器、计算模型等各个领域的创新,粒计算是在求解问题过程中使用“粒”的理论、方法、技术和工具的集合,适用于近似求解
高新技术产品的扩散过程首先是高新技术产品的传播过程,由于高新技术产品所具有的特性,使得高新技术产品在其信息的传播途径、传播媒介、传播的信息内容跟传统产品都存在差异。
摘 要:近年来,国家针对清洁能源消纳问题提出了新的要求。能源供应充足是好事情,可以为人民和工业持续提供生产和生活的动力,但是如果一直产量过剩、利用率太低,就会导致能源浪费,造成能源滞销,给社会带来一定的负担,所以各部门一定要积极地响应国家号召,做好清洁能源的消纳工作,努力践行绿色发展,造福人类。文章将针对清洁能源消纳问题进行研究。  关键词:清洁能源;绿色发展;消纳  中国作为人口大国,对能源的消
本文介绍了DQ8030型堆取料机投运后的若干改进,比较切合实际,可供制造和使用堆取料机的有关单位参考。
摘 要:登杆作业是电力系统新员工岗前培训必学项目,学员的身体条件、自我控制能力存在很大差距,对于作业中同样的技术要求,实现起来也不尽相同,并且时常有危险状况发生。保障每个学员的安全成了培训教学中的重中之重。本文根据实际情况,提出解决办法,采取高于法规的安全措施,从根本上保障培训学员人身安全。  关键词:安全保障 措施  中图分类号:G712 文献标识码:A 文章编号:1672-3791(2018)
2008年1月10日,在新德里汽车博览会上,印度Tata汽车公司推出一款名为Tata Nano的新车,售价仅为2500美元,成为全球最便宜的小轿车,一时轰动世界。塔塔的低价车计划在印度被称为“10
随着农村公路的发展,路网覆盖的面积越来越广,交通也越来越便利,但是由于条件限制,乡村的道路多数在陡坡上建设,弯急且坡陡、路窄且路基的基础差,弯道的半径不够,道路的安全
据日本共同社报道,印度政府已于11月8日正式同意向日本出口稀土。印度总理辛格于15日访问日本,16日,两国政府在东京签署了进出口稀土备忘录。