挖掘大数据

来源 :科学24小时 | 被引量 : 0次 | 上传用户:V13_ywj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据是无处不在的,只要人类的活动依旧,且观测行为始终存在,那么数据就会不断产生。一旦数据被记录下来,它就会成为历史的一个投影,被保存在各种各样的信息媒介中。不过在互联网时代,数据早已挣脱了简单的数字束缚,它不仅可以是符号、文字、语音,更可以是图像或视频。
  数据之丰
  美景极致之时,我们会拿起手中的相机,将这种美永久定格。风景以照片的形式记录下来。此时,照片的底片,或者数码相机的存储卡就是一个存储数据的媒介。没有相机的时代,古人会以文字的形式记录,马致远的“枯藤老树昏鸦,小桥流水人家”、李白的“飞流直下三千尺,疑是银河落九天”……此时的媒介就是纸上的这一段文字。
  如今,我们的数据记录媒介更加多样。比如,我们在超市购物的数据,会以文字的形式,被保留在超市的临时数据库中。而健身达人的夜跑经历,则会被手机或是周围的监控记录。试想一下,全球70亿人口每分每秒都会产生多少数据,而这些数据将会被如何记录或是开发呢?
  在互联网技术、社交网络媒体,以及硬盘存储能力高速发展的今天,“记录”这一行为正在变得越来越简单和频繁。人们在网络上的任何行为,如在微博上发的消息、微信朋友圈中的好友、在京东购买的商品等等,都有可能被实时保存下来。很显然,当用户的数量达到一个非常巨大的数值时,这些用户每秒钟产生的数据都是一个天文数字。
  数据之惑
  面对如此巨大的数据量,对于针对用户的服务提供方来说,其价值是不可估量的。但如果数据的所有方缺乏一种有效的应用策略,那么他们手中的数据将变得一文不值——数据和信息是不可分离的,数据是信息的表达,而信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才会成为信息。
  其实从信息索引的角度看,我们在面对信息量爆炸和信息量极度匮乏这两种情况时,如果没有较好的方法,其结果几乎是一样的。如果今天没有类似百度、谷歌这样的搜索引擎,那我们应该怎样在互联网上找到所需的信息或是想要的答案呢?即便我们非常确定,想要寻找的内容一定存在于网络之中。最后的结果想必是确定的,面对如繁星般众多的网页,我们束手无策,找不到自己真正想要的答案。
  在互联网时代中,如何针对如此庞大的用户数据,构建一个合适的、有价值的信息提取方案,就成了一个亟待解决的问题,而这个概念就是大家耳熟能详的“大数据”中的一部分——数据挖掘。
  数据之力
  “大数据”是一个近年来才被提出的概念,它是指在不对已有数据进行抽样提取的情况下,将原有数据作为整体进行处理的方案(当然这只是一个比较宽泛的定义,有兴趣的读者,可以关注由维克托·迈尔·舍恩伯格和肯尼斯·库克耶编写的《大数据时代》)。而这样的方案,不仅能让我们拥有更强的决策力和洞察力,而且还能大大提升流程优化能力。
  因此,大数据技术的战略意义不在于掌握多么庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
  为了达到处理整体数据的目的,近年来,不少科学家在不同层面上提出了许多非常有趣的新兴技术。比如从数据处理角度出发,有分布式处理方法MapReduce。这是一种编程模型,用于大规模数据集(大于1TB)的并行运算。我们可以将它简单地表述为,将非常大的输入数据分成多份,然后并行处理,最后将并行处理的所有结果整合成最终结果。这项技术比较著名的应用工具有Hadoop和DISCO等。再从数据库角度看,NoSQL数据库以其在信息索引、流媒体存储等方面的高性能,如今已被广泛应用。随着互联网Web2.0网站的兴起,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站时,已显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,比较著名的NoSQL数据库有MongoDB和CouchDB等。
  数据之术
  在现今互联网大环境下,如何应用“大数据”概念,提取有价值用户信息,从而实现利润最大化呢?除了上述底层结构化的技术支持外,有效的数据挖掘(Data mining),甚至是机器学习(Machine learning)算法都是必不可少的。这类算法大多和数理统计学密切相关,其理论基础也多建立在数理统计学之上。这些行之有效的算法,都有一个相通的基本理念:以史为鉴,即通过历史数据去推断当前甚至未来。
  2000年,来自美国伊利诺伊大学香槟分校(University of Illinois Urbana Champaign)的韩家炜教授等人,提出了关联式规则(Association Rules, AR)这一算法,它可从大量数据中挖掘出有价值数据项之间的相关关系。以网络购物平台为例,它拥有着巨量的用户网络购物信息,比如用户购物历史数据:购买时间、商品名称、种类等等。那我们该如何根据一个用户的购物历史向他推荐有可能感兴趣的商品,从而提升用户体验,甚至是提高平台收益呢?这就是关联式规则算法的用武之地了。
其他文献
射频(RF)治疗技术属于微创治疗方法,可根据临床需要选择治疗的方式,控制仪器所发出的刺激或毁损电流的大小,选用不同直径、长短和形状的穿刺电极针,形成有选择性的特异性的精确局
我国康复医学有组织的发展始于1983年,已经历了25年的风雨。进入21世纪以来,随着经济的迅速发展,康复医学作为一个年轻的学科,得到较快的发展和提升,已在医学领域中扮演越来越重要
国内现代康复医学的发展始于20世纪80年代中期,康复治疗人员的培训虽然也同时启动,但培训对象主要局限于在职人员非系统的短期培训,培训重点也局限在传播现代康复医学理念和康复
骨质疏松(OP)防治一般可分为药物治疗和物理治疗,物理治疗中的脉冲电磁场(PEMFs)用于OP的治疗起源于1889年Bassett的预言,他认为脉冲电磁场可能对骨质疏松的治疗产生影响。随后
道路交通伤害是困扰世界各国人民健康的重大问题,随着社会经济的发展,在发展中国家有不断增多之势.一般地说,经济发展速度超过4%~6%时,道路交通事故死亡人数是上升的,只有当经济
会议
Many trauma surgeries and reconstructive surgeries involve re-establishment of a bone-tendon(B-T) junction, such as direct repair for patellar-tendon-patella or
会议
有人说,电脑的发明是信息时代的敲门砖,那么互联网的建立与普及就是这个时代的主旋律。它彻底地改变了世界的格局和人类的生存模式,给人们带来了无尽的益处。可以说,从信息的获取和传播,到人们社交的方式与范围的变化,再到与世界的沟通方式和生产方式的改变,目力所及,世界的各个角落都在迅速互联网化。然而,与很多人的想像相反,互联网并非某一完美计划的结果,它的创始人当初也绝没有想到它能发展成目前这般规模,具有如此
急诊医学是专门处理病情危急需要立即进行干预、处理,以防止病情进一步恶化或死亡的专门学科。近年来随着医疗技术的进步、经济发展人们对健康要求不断提高,有疾病到急诊在人
会议
2008年5月12日四川汶川发生8.0级地震。截至5月27日12时,地震已造成67183人遇难,361822人受伤,20790人失踪,受伤住院治疗合计84810人。地震伤员在经过紧急抢救、手术治疗后,截瘫、
灾难事件已成为当今社会一个重要的公共问题,灾难的发生没有规律。近30年来,灾难事故种类增多、发生趋于频繁、对社会影响面大,对一些重大灾害的防御效果不明显。如近年来地