浅论大数据时代数据可视化技术对于数据分析的价值

来源 :科海故事博览·中旬刊 | 被引量 : 0次 | 上传用户:star010lxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 数据分析界有一句经典名言,字不如表,表不如图。数据分析的最终目的都是要兜售自己的观点和结论的,用最鲜明有效的方式展现出来。在进入互联网时代,大数据给人类提供更多的契机去挖掘和探索未知的知识领域,与此同时人类也进入了一个如何使用好该类资源的关键时间节点。因为随着大数据时代的到来,对数据解读的难度和消息干扰力度也随之增加。在这样的背景下,数据可视化的重要性日益突显。依托于认知心理学的可视化技术是从人类认识事物的根本出发提供数据分析的解读方案,从而从容应对了大数据时代带来的部分挑战及避免数据统计分析陷阱。可视化是一套科学和美学融合的解决方案,在未来的发展中值得期待。
  关键词 数据可视化 技术与设计 数据解读
  中图分类号:TN919.1 文献标识码:A 文章编号:1007-0745(2020)03-0018-03
  在很多城市,私家车的数量持续增长而交通并没有更加拥堵甚至还有所改善的时候,这是因为信号灯和摄像头除了地理位置以外有了数据处理等AI技术带来的其他维度的有效地互联互通。大数据时代的变革让人受益,在这个时代,人类接触的几乎所有事务都可能转化为数据资源。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。[1]2012年1月,在瑞士小镇达沃斯举办的世界经济论坛上大数据成为探讨的主题之一并发布报告“Big data,big impact:New possibilities for international development”。[2]
  1 数据解读在大数据时代的面临的挑战
  《史记·萧相国世家》中记载“何独先入收秦丞相御史律令图书藏之……汉王所以具知天下厄塞,户口多少,强弱之处,民所疾苦者,以何具得秦图书也。”这是历史上数据分析帮助人类决策取得成功的经典案例。数据的采集与分析不是一个新问题。但在大数据时代,传统科学也要面临新的挑战。
  1.1 大数据特征所决定
  大数据首先应该具备其代表性意义的3V特征[3],即大规模性(Volume)、多样性(Variety)和高速性(Velocity)。然而数据量的增长并不与数据价值呈线性比例增长,反而使我们在其中获取知识的难度增大。因此,有机构提出大数据还具有第四个V,价值密度低(Value)[4]。大数据这四个特征,对于数据科学的各个领域均增加了不同程度的复杂性。
  1.2 数字化统计结果会有掩盖性
  “谎言有三,普通谎言、严重谎言、统计数据。”这是源于19世纪英国政坛的一句名言,足以揭示数据化的统计结果对人类获取知识并进行决策的危险。[5]误导决策者的方式主要有:(1)选择有误导性的代表值,如经常提及的“精心挑选的平均数”;(2)对统计数字进行模糊字眼描述;(3)大量样本充分掩盖了个别重要数据,造成对一些重要的信息的忽略和错误估计。在大数据时代,样本量可以等同于数据总量。美国统计学家赫夫的著作《统计陷阱》(How to lie with statistics)中,描述了各种数据误导现象。自1954年出版以来,至今畅销。[6]
  笔者针对第二点做一下举例分析。美国《星期日》周报提到“一个婴儿到第N 个月就能坐直”。许多父母看到这则消息,马上联想到自己的孩子,如果他们的孩子到这个月份还坐不直,就会怀疑孩子存在“ 软骨”、“发育不正常”等问题。这个标准是什么意思呢?据了解,这是孩子出生到能坐直时间的中位数。也就是说半数的孩子在N个月时一定是坐不直的,没有什么可担心的。“标准”一词,意味着达不到此数据就不合格,可是中位数是不能作为标准的。然而我们免去这些复杂的统计学分析,在大数据时代下将正常婴儿坐立时间用分布图表示,任何人不再有机会使用数据进行误导。这样能更充分、更科学的制定出相关数据,供大家参考。
  数据分析人员的工种多样性。用户正从少数数据专家用户发展为广泛领域的工程技术人员。在大数据和新媒体时代有分析理解数据需求的人员从传统的数据分析人员和商业用户延伸到社会中几乎每位信息消费者。然而术业有专攻,不可能所有人都受过统计学训练并能够读懂传统分析结果(summary),由此可见可视化的普惠性和低门槛借助 Web、移动端、互联网及物联网等新型环境便于普通用户使用。可扩展的可视化系统已经是大数据可视化的发展趋势之一。
  2 数据可视化手段
  数据可视化是是关于数据视觉表现形式的科学技术研究,是使数据分析结果简明之致的视觉化表现和传达过程。[7]这个过程并非简单地“直译”数据,而是要从大量数据中把隐藏在深处或各种数据之间的关联信息挖掘出来,是一种知识和价值的发现过程。最终丰富数据阅读者的认识体系并辅助其做出正确决策。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
  人类从外界获得的信息约有 80% 以上来自于视觉系统[8],可视化正是利用人类识别图像的天赋来促进更有效地理解数据。基于此原理,可视化技术将难以直接显示或不可见的数据映射为可以感知的图形、颜色、文理、符号等,以提高数据识别效率并高效传递有用的信息。[9]MIT 的学者用眼动仪观察用戶观看可视化数据的过程,发现:首先,看一眼便能记住的可视化图形中要含有被记住的内容。[10]笔者借一句英文中谚语归纳一下数据可视化的价值:“一图胜千言”。(“A picture is worth a thousand words”)
  从对数据的认知角度而言,数据的以下四个性质可以为人类提供相关知识。它们是关联性、特征性、次序性以及数量性。可视化的多个变量可以不同程度展示出数据的这四个相关性质。   数据的关联性可以使用的变量包括颜色、位置、形状和方向。数据的特征性最常使用的变量是颜色,其次是纹理、明度等级和尺寸。数据的次序性最佳表现变量是明度等级,其次分别是颜色和尺寸。对于数据规模的大小我们常用尺寸变量来表示。
  笔者对可视化实现的功能进行梳理,可以归纳出数据可视化的几大分类。换言之,根据目标、意图以及数据的表现形式我们大致可以看到可视化会出现五种类型。
  (1)时序可视化(RunTime Visualization),随着时间而变化的数据通过可视化的形式来表现。
  (2)分布可视化(Distribution Visualization),将所关心的局部与整体之间的关系——例如最大、最小用可视化的方式进行表现。
  (3)关联可视化(Relationship Visualization),寻找数据各个变量之间存在的关系。
  (4)比较可视化(Comparative Visualization),寻找数据变量之间的价值比较。
  (5)空间可视化(Spatial visualization),旨在表现在地图上承载的信息。
  3 数据分析的案例分析[11]
  假设三个组分别采集到如下数据:
  使用python中的statsmodels,对上述数据整理并做线性回归。笔者展示关键部分代码以及打印出的关键结果信息。
  统计结果可以让数据分析人员接受这个模型,但需要将数据做一下可视化。
  从数据可视化之后的图片信息可以看到,笔者只认为对A组做线性回归是相对科学的解决方案。所以不要轻易相信summary statistics,聪明的人先对数据做可视化。
  4 数据可视化发展方向
  4.1 AR技术在数据可视化中的应用
  人类是在三维世界中进行物体识别,然而在数据可视化中,3D效果的使用却始终不温不火甚至饱受质疑。其原因是3D图像可以扭曲感知从而扭曲数据。[12]其根本原因是数据可视化的展示载体是一个平面。AR技术使数据阅读者更身临其境,这大大有利于数据分析师构建更符合人类观察习惯的数据可视化作品。
  4.2 数据可视化的视觉合理性研究
  可视化研究的重要理论基础之一是认知心理学。这是一门研究有关人类如何感知和认识世界的理论,研究人类感知和思维信的过程。[13]不可思议的是最不可识别的可视化图像 54%来自于政府部门(美国),他们采用的可视化图像往往是相同的模板和类似的美学特征。因此,容易造成识别的混乱。若要促成数据可视化对信息更有效的传达以及让阅读者对数据有更深刻的洞察,技术与设计、科学与美学需要并驾齐驱。
  4.3 钻取技术在数据可视化中的应用
  计算机技术迅猛发展为大数据产业提供了强有力的支持。然而工程师们往往更专注后台的存储、算法、算力等方面的研究。其实在笔者看来计算机前端的发展同样为数据分析带历史性的变革。这些技术可以让数据分析人员纵向了解各个级别的数据,而非仅仅展示出来的横向部分。
  在大多数情况下,可视化同时包含多个维度和度量。维度是指考察数据的角度。度量是某个维度的取值或某些维度的计算结果。好的可视化结果可以帮助数据分析师找到特征明显的维度和度量特征。如今非常火热的机器学习技术,主要依靠的就是数据的特征。[14]
  钻取技术可以帮助数据分析师细化这些特征。其更大的意义在于,将可视化的成果变成更有力的数据分析工具。
  参考文献:
  [1] 陶雪娇,胡晓峰,刘洋. 大数据研究综述[J]. 系统仿真学报,2013, 08:57.
  [2] World Economic Forum. Big data, big impact: New possibilities for international development[R/OL].[2012-10-02].http://www.eforum.org/docs/WEF_TC_MFS_BigDataBiglmpact_Briefing_2012.pdf.
  [3] Grobelnik M Big-data computing Creating revolutionary breakthroughs in commerce, science, and socicty [R/OL].[2012-10-02]. http://videolectures. Net.
  [4] Barwick H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium [EB/OL].[2012-10-02].http://www.compute rworld.com.
  [5] Best J. Damned lies and statistics:untangling numbers from the media,politicians, and activists,Berkeley :University of California Press,2001.
  [6] Huff D.How to lie with statistics[M].New
其他文献
摘 要 本文对艺术创作中夸张手法的概念进行了简要的阐述,在此基础上,就数字插画夸张手法中细腻情感的表达进行了探讨。  关键词 数字插画 夸张手法 情感表达  对于任何一种艺术形式来说,夸张都是必不可不少的表现手法,可以说没有夸张就没有艺术,只是不同艺术形式追求的效果有所差别而已。在数字插画作品的创作中,夸张也是一种运用较多的创作手法。作为数字插画设计中的一种设计表达方式,夸张手法的运用是创作者在对
提高自主学习能力正当时  孙其华在2020年3月27日《江蘇教育报》撰文指出:大家都知道,学生的自主学习能力非常重要,在常态的学校教学中,也一直处于重要的位置,但往往是从属于知识学习的辅助位置。此次居家学习,师生不处于同一空间面对面的状态,学生失去了教室这一场域的限制,弱化了班组这一共同体的归属感,部分学生较少参与作品分享,较少参与线上答疑,“学生是否真正知道自己的疑点?是否真正知道本课时的重点?
摘 要 电力系统中,10kV配电线路是一种比较常见的线路类型,其布局非常广泛,运行过程复杂,为电力系统的稳定做出了巨大的贡献。10kV及以下配电线路在电力系统中属于重要的电力线路之一,为保障其在电力系统中运行的稳定性和安全性,应针对10kV及以下配电线路工作效率,进行标准化的维修作业,从而保障配电线路运行的安全性。本文以10kV及以下配电线路为研究对象,分别阐述了10kV及以下配电线路的常见故障,
司法部近日公布《建设工程抗震管理条例(征求意见稿)》,明确学校、幼儿园、医院、养老机构、应急指挥中心、应急避难场所等公共建筑应当按照高于一般房屋建筑的要求采取抗震措施。(2019年10月9日《法制日报》)  學校、幼儿园、医院、养老机构等,是人员密集和财产高度集中的公共场所,并且这些场所的人员相对特殊,地震避险逃生能力较弱,一旦遭遇地震灾害,其人员伤亡和财产损失将比其他场所更加严重。从这个意义上说
摘 要 阅读是语文学习的重要内容,语文作为众多科目之中最关键的科目。对学生的全方位发展起到一定作用,小学作为学生生涯的初始阶段,对于阅读能力的培养十分重要,阅读要从小开始,开展小学语文阅读教学,培养学生阅读兴趣,提高学生的语文学习水平。从而实现, 语文高效学习,优化学习模式,推动基础教育现代化的进程。本文就从如何开展小学语文阅读教学提升学生学习阅读兴趣进行简要概述。  关键词 小学语文;阅读教学;
摘 要 广州华润热电有限公司圆形煤场堆取料机运行接近12年,存在控制系统硬件老化停产、软件版本停止更新服务、与输煤程控PLC系统通讯不稳定、运行中故障日渐增多等问题,亟待通过控制系统升级技改解决。本文介绍了在堆取料机控制系统升级预算有限的情况下,我们制定了较为精准的控制系统升级技改方案,着重解决较为紧急的PLC系统CPU及其周边模块升级、工控软件版本更新、堆取料机与输煤程控通讯不可靠、堆取料机司机
摘 要 大学生是接受新鲜事物最快的群体之一,随着 web2.0时代微博的普及,它成了当代大学生主要的社交平台之一。在公共议题的讨论中,大学生微博政治参与的非理性问题日益凸显。本文从参与式民主视角,对大学生参与微博公共议题的局限性进行分析。  关键词 参与式民主 微博 公共议题 媒介素养  一、参与式民主视角下大学生的媒体素养  “参与式民主”理论经历了20世纪30年代的保护主义阶段,视流行文化为“
摘 要 计量装置竣工验收的过程规范,对于提升员工工作质量以及客户的满意度都有重大意义。在系统中将验收规程,验收数据与测距仪相结合实现了一个基于测距仪的高压计量装置竣工验收的全过程管理,在确保验收流程执行完全的情况下,提升工作效率。应用结果表明:采用软件技术、测控实现的全过程管理系统能够解决计量装置的验收问题。  关键词 电能计量装置 验收 测距仪 手机APP  中图分类号:TP311.1 文献标识
摘 要 岩屑录井是地质录井工作的重要环节,涉及较多的设备设施。常规的岩屑录井分析操作是分散的,需要更多操作程序的支持。在操作程序中经常发生交叉作业影响,从而降低了工作效率。鉴于此,本篇文章从一种岩屑录井分析操作台的功能性结构设计出发,探讨一种科学高效的操作模式。  关键词 岩屑录井 操作台 清洗 荧光  中图分类号:P58 文献标识码:A 文章编号:1007-0745(2021)05-0019-0
摘 要 当供电电源发生故障或者扰动时会给火力发电机组给煤机造成一定影响,有必要对该问题展开系统论述。基于此,本文首先就低功率(电压)穿越能力进行简要论述,简单阐述三种常见提高给煤机低电压穿越能力的有效办法,总结发电厂中利用变频器参数调整与热控逻辑调整相配合的提升给煤机低电压穿越能力的案例,具有一定的参考价值。  关键词 大型火力发电机组 给煤机 变频器 双电源切换 低电压穿越  中图分类号:TB8