大数据与统计学分析方法比较

来源 :现代商贸工业 | 被引量 : 0次 | 上传用户:fatcat120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:
  基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。
  关键词:
  大数据;统计学;研究方法
  中图分类号:
  F27
  文献标识码:A
  文章编号:16723198(2015)11005201
  随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。
  1大数据的界定
  根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big, too fast, or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。
  Victor在其最新著作《大数据时代——生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。
  2大数据与统計学分析方法的联系
  从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。
  (1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。
  (2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。
  3大数据与统计学分析方法的区别
  (1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。
  ①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。
  ②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。
  (2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集——数据分析——描述事物特征/关系。
  (3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。
  (4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。
  4结语
  综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。
  参考文献
  [1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.
  [2]俞立平.大数据与大数据经济学[J].中国软科学,2013,(7):177183.
  [3]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代—生活、工作与思维的大变革[M].盛杨燕,周涛译.杭州:浙江人民出版社,2012.
其他文献
目的探讨肾素-血管紧张素系统(renin-angiotensin system,RAS)在慢性束缚应激诱导下对小鼠白细胞介素表达的作用。方法以慢性束缚应激法建立应激模型,对其中部分小鼠注射血管
巍巍五角亭穿越历史尘烟,滔滔黄海潮激荡时代风云。创建于1998年的江苏省教育现代化示范初中江苏省东台市三仓镇中学依托革命老区优势,着力打造“红色教育”品牌,引导师生走
五四精神是社会主义核心价值观的重要精神来源,社会主义核心价值观是对五四精神的传承与升华。五四精神作为精神动力,有利于激发大学生对社会主义核心价值观的情感认同;作为
政治生态体现了一个国家的政治生活发展环境综合态势,它的运行好坏关乎我党和国家以及人民的根本利益。文章从政治生态的内涵讲解出发,分析了我国政治生态的现状问题,进一步
NTC公司是一个专门服务于汽车制造行业的专业机床生产厂家。1983年,NTC公司与日本丰田汽车公司共同合作开发出了世界上第一台三维五轴数控激光切割机,并针对汽车工业的要求,经过
提出了一种基于扫描式漫反射成像法测量激光强度时空分布的装置。测量装置主要由轮辐式扫描取样机构、同步信号发生器和CCD成像系统组成。装置使用动态的取样旋臂替代静态的
进行了氢氧化钠沉淀分离铜钯的动力学研究,计算了用该法分离铜钯对测定引起的误差,将该法用于测定乙醛催化剂中的钯含量,获得满意结果。
《幼儿园教育指导纲要》指出:“幼儿园的教育要与家庭密切配合,为人的终身发展奠定基础。”然而,在孩子哇哇落地的那一刻起,家长就是孩子的第一位老师。但在对孩子进行启蒙教
考试是各类学科教学的重要组成,是进行教学评价的重要手段,考试后的试卷讲评课可以为学生进行复习巩固,是学生们加深对知识理解的关键环节。教师进行试卷讲评,可以了解学生们
<正>目前,肺炎主要依据呼吸道症状、影像学检查以及实验室检查综合分析后进行诊断,临床上以游走性肺浸润为特点的老年肺炎极为少见,其影像学多表现为多次胸部CT检查提示相似
期刊