数据共享 难也不难

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:dianzi511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  俗话说,巧妇难为无米之炊。虽然现阶段,不论是传统的IT厂商,还是初创的大数据厂商,都在大数据的技术和产品方面不断推陈出新,但如果没有海量的数据用于分析,那么大数据分析与挖掘只能是纸上谈兵。因此,有人提出,政府相关部门、企业应该适当公开一些不敏感的数据,以实现更好的数据共享,为大数据的科学研究和商业应用提供土壤。
  恰好,在近日举行的2014中国大数据技术大会(BDTC 2014)暨第二届CCF大数据学术会议上,多位国内外的学者、企业家都谈到了数据共享这个话题,并且介绍了中外在数据共享方面的实践。
  数据共享应成常态
  记者曾经听美国的一些大数据企业谈到,美国在数据公开方面做得非常好,这为科研院校的大数据研究、企业的大数据商业化运行提供了便利条件。有业内人士建议,中国政府的相关部门也应该制定一个基本的大数据分类和使用规则,比如根据数据的敏感性、安全性要求明确定义数据的“黑、灰、白”,形成整个社会和产业界的数据共享机制,从而加速整个大数据产业和应用的发展。
  “一提到‘数据公开’,大家都很敏感,所以我们可以换一个词——数据共享。”中国工程院院士李国杰表示,“国内外在数据共享方面确实存在差别,这是大数据的发展水平决定的。是不是政府的所有数据都要公开呢?在国外,有的国家政府提出,可以把政府数据都公布出来,但是谁又有能力保证这些数据的安全,并充分利用和发挥其应有的价值呢?”
  在数据共享这个问题上,从政府到产业界应该达成一种基本共识。国外一些在大数据应用方面走在前列的国家的共识是:数据共享是常态,不共享是例外。而现在国内还很难达成这样一种共识。
  李国杰表示,在数据共享方面,我国可以向最先进的美国学习。但是,如果我们能借鉴与我国自身发展水平接近的国家,比如印度、巴西的经验,可能更实际,效果也会立竿见影。
  Conviva公司联合创始人兼CEO、卡内基梅隆大学计算机科学教授张晖表示:“大数据落地的第一件事就是要制定清楚的规则,明确数据的所有权。在美国,虽然在大数据的某些方面还存在灰色地带,但基本规则十分清楚,而中国目前还在探讨之中。第二件事就是形成大数据方面的双赢,甚至多赢局面。这就需要整个产业界,包括政府、企业等,在先满足自身利益的基础上再实现双赢。比如,在美国,为了科学研究的需要,一些企业通常会对数据进行匿名化处理后公布出来。”
  卡内基梅隆大学教授、ICML 2014程序委员会主席邢波认为,现在很多人纠结数据公开和共享这个问题,可能不是从大数据研究或商业化的角度去考虑这个问题,而是出于一种社会知情权的需要。一个企业有权保护自己的数据。“如果从纯研究的角度来讲,我不觉得数据的公开与否会真正影响大数据研究的进程,至少在学术层面还没有到没有数据就不能开展研究的局面。有些人质疑的可能是有些数据你有而我没有。科研机构可以与企业在自愿的基础上签订一个协议,对数据的共享、研究成果的归属等问题做出明确约定。”邢波谈了自己的观点。
  多方共赢
  现在,很多互联网公司、电商企业都宣称自己就是一个大数据企业。在这些企业中,数据已成为一种极具价值的资产,而这些企业本身就是数据金矿。如果这些企业都能在一定程度上开放并与自身所在的产业链的上下游企业共享数据,那么大数据的应用将大大提速。
  但是,企业有自身的经济利益,它们通常不会,也不应被迫公开自己的数据。为什么企业还要公开自己的数据呢?因为这有利于提升整个产业的发展水平,更有利于形成一个良好的生态系统。张晖介绍,其实美国的工业界、学术界和政府并没有明文的规定要求大家公开数据,但是随着产业的快速发展,同时也为满足日益增长的用户需求,整个产业界自发地、慢慢地形成了当前这种数据脱敏后的公开和共享模式。“我的一个学生,现在是一家创业公司的合伙人,他们公司就有大量的商业数据。他们就把某些数据进行匿名化处理后交由学校来做研究。反过来,学校的科学研究成果可以反馈给公司,从而形成了双赢的局面。”张晖举例说,“我们需要政府提供一个宽容的机制,而产业界的人也应该有高瞻远瞩的想法,在保护自己的利益的同时,努力营造一个多赢的生态系统。”
  邢波认为,工业界与学术界在大数据方面的研究风格和方法是有区别的。比如在学术界,为了更有效地进行大数据研究,数据共享的限度可以放宽一些。另外,大数据的研究机构也可以自己想办法模拟大数据的环境。“在美国,学术界与工业界之间正在积极建立一种互信机制,互相争取对方的注意力,大数据的研究成果与商业转化形成了一个良性循环。这一点值得国内的同行借鉴。”邢波告诉记者,“在美国,并不存在产业界和学术界谁领先谁的问题,双方的联系非常紧密,是互补的关系。很多前沿的、有一定风险的项目通常是从大学开始,然后才将成果输送到产业界。在美国是‘学而优则教’。美国许多大学的教授同时也是实体企业的骨干,这为大数据的研究和产业化创造了一个良好的氛围。”
  ETI创始人、美国特拉华大学电子与计算机工程系教授高光荣就是一个横跨学术界与工业界的典型代表。他谈了自己的亲身经历:“我教的一门课要用到银行卡的数据。我需要给学生提供与真实数据近似的数据。最后,我们采用数据模拟的方式让学生完成了课题研究。从公司的角度看,数据公开和共享的前提是能够让双方获益。不过,即使是在这种情况下,双方在交换数据时也要制定严格的保密制度或签订协议。”
  数据共享要有法可依
  在中国,企业之间的数据共享问题是当前的一个热点。有业内人士指出,企业间的数据之所以不能共享,一方面,是因为各公司出于安全和竞争方面的考虑,不愿轻易公开自己的数据; 另一方面,大家都说数据具有无限的价值,但谁也没有能力给数据定个具体的价格,因而数据价值无限也可被理解为数据无价值,数据无价值也就无法进行等价交换。
  不过,记者了解到,在某些十分依赖数据的行业,比如移动广告业,企业间数据交换的问题已经被提上议事日程。据一位从事移动大数据分析工作的业内人士透露,可能明年在移动广告界就会出现一些类似联盟的行业内部组织,参与的公司会在一定规则下交换自己的数据。这些共享的数据可能由一个第三方的机构负责保管,企业在使用完这些数据后必须将数据交还给第三方的数据托管机构或销毁。虽然这个数据共享计划还在酝酿过程中,不过可以看出,数据共享对于大数据的商业化是有积极促进作用的,也是企业所需要的。未来,无论是政府还是行业监管机构,可以考虑制定与数据共享相关的法规或行业标准,规范数据共享,保证大数据行业的健康、有序发展。
  中国科学院计算技术研究所研究员、CCF大数据专家委员会秘书长程学旗表示,大数据落地遇到的挑战除了来自技术以外,数据共享问题确实不能忽视。不过,数据共享不能泛泛而谈。举例来说,当前,许多企业内部的部门之间就没有形成一种共享的良性机制,而没有数据的整合,也就谈不上应用的创新和发展,更无法做出正确、及时的决策。再比如说,在建设智慧城市的过程中,各政府部门、行业部门的数据没有整合到一起,因而很难在一个统一的目标下协调发展。数据的整合与共享是大数据发展必须跨越的一道门槛。
  链接 2015大数据发展趋势
  在2014中国大数据技术大会(BDTC 2014)上,《中国大数据技术与产业发展白皮书(2014)》和《2015大数据十大发展趋势预测》正式发布。
  CCF大数据专家委员会从大数据科学、大数据技术、大数据系统和工程、大数据应用、数据资源、产业生态环境等6个不同方面、总计54个候选项中投票选出了2015年大数据的发展趋势:大数据与人工智能的融合,跨学科领域交叉的数据分析应用,数据科学带动多学科融合,深度学习成为大数据智能分析的核心技术,利用大数据构建大规模和有序化、开放式的知识体系,大数据的安全持续令人担忧,开源成为大数据技术的主流,大数据与云计算和移动互联网等的综合应用,大数据提升政府的治理能力,大数据技术课程体系建设和人才培养快速发展。
其他文献
思科公司曾经估计,99.4%的物理对象至今尚未连接到互联网。这意味着全球1.5万亿个事物中仅有100亿个已经连接到互联网。但物联网大潮确实正在向我们涌来,并且蕴藏着无限商机。  “2013年是物联网真正起步的一年。”高通创锐讯新兴业务全球高级副总裁郑建生表示,“物联网应用正在全球范围内慢慢展开。不仅是高通公司,思科、Oracle等IT大佬们都在大力推动物联网应用,在物联网起步时期做好布局。”  移
2012注定是整机市场不平凡的一年。计算平台更新、HPC迈入万亿亿次时代、一体化解决方案、异构计算、微服务器等为市场打上鲜明的标签。随着云计算应用落地的加速和大数据的兴起,更高的扩展弹性、更高的资产利用、更严格的RAS及合规日益成为客户业务与IT交付的关键诉求。TCO、能效水平、易管理性等成为系统解决方案设计和市场宣传的关键词。  这一年,以英特尔E5、AMD皓龙6300为代表的x86计算核心更新
在企业级计算市场,传统的x86 阵营因其广泛的软硬件支持和完整的生态环境,一直占据着通用计算平台的主流市场地位。然而,在计算、能效、成本等多元化的需求下,这种格局正在悄然发生变化。对于处理器芯片厂商和整个IT业界来说,10月30日无疑是一个值得载入史册的日子,AMD宣布将面向多个市场设计基于ARM架构的64位处理器, x86与ARM各自为营的局面就此正式打破。  “双A”打出组合拳  数据中心在整
由于淘宝网等第三方电子商务网站对传统制造业零售渠道产生了巨大冲击,很多人认为制造业电子商务最大的价值是扩充销售渠道,降低销售成本。实则不然。事实上,一些制造企业将电商平台与企业内部的各种应用系统,如ERP、CRM等系统整合起来后,将电子商务作为其打通产业链上下游的依托平台,强化产业链联动,从而大幅度提高业务效率。还有些制造企业对电子商务平台上的最终用户、合作伙伴对产品的实时反馈信息进行整理、分析,
移动互联网时代使得人们的生活发生了翻天覆地的变化。  帝联科技收集的数据显示,2010年第4季度中国无线搜索市场日均PV(点击量)已经突破了20亿,环比增长了11%,日均搜索量达5亿,环比增长近10%。而2011年无线搜索市场日均PV也突破了30亿,日均搜索量突破7亿。  在移动互联网时代,很多高科技产物应运而生。  目前,一种名叫Q卡的互联网产品在网上广为流传,成为2012年以来移动互联网领域一
不佳的经济环境,使得企业在发展中都会想到开源节流。为此,当前不少企业开始尝试IT融资租赁,以提高资本的投资回报率,将更多的资金投入到业务发展中。  上海帝联信息科技股份有限公司(下称帝联科技)在近日获得“2012中国信息企业领军企业”殊荣。帝联科技是专业提供互联网优化服务的高科技企业,致力于成为全球卓越的CP服务商。它由一支拥有资深互联网服务、系统集成、电子商务管理等背景的复合型团队创立,在互联网
“我终于可以逃脱华尔街的监视,能够更加专注于客户,并在他们身上投入更多时间和精力,同时加强产品研发。”戴尔董事长兼首席执行官迈克尔·戴尔在Dell World 2014召开之前接受美国一家主流媒体采访时曾这样表示。11月4—6日举行的Dell World比往年提前了一个月左右。在整个会议期间,人们最关注的还是戴尔私有化后的业务发展。戴尔,你还好吗?  更关注用户和长期发展  无论在会场,还是新闻采
有这样一种人,他们对数据分析与挖掘具有强烈的兴趣;  有这样一种人,他们既具备统计建模的能力,又对某一业务领域的知识十分熟悉;  有这样一种人,他们在数据分析型项目中必不可少……  这就是大数据时代稀缺的数据科学家。  被《哈佛商业评论》喻为21世纪最性感职业的数据科学家背后到底有哪些不为人知的故事呢?  让我们一起走近数据科学家。  有人给予了大数据专家许多美好的称号,比如“数据开采者”、“数据
纵观近几年中国的数据中心及信息机房市场,在总体上保持高速发展的背景下,出现V型变化。2009年受到国际金融危机的影响,数据中心市场的增长率出现了一定比例的下滑。据ICTresearch 研究,2011 年机房市场规模为141.83 亿元,比2010 年增长9.4%。至2012年,又恢复了快速上行的势头。  同时,在中国互联网协会综合中国互联网络信息中心、艾瑞咨询、易观国际等多家权威机构的报告预计中
北京,二环附近,中华财险的新数据中心正式启用。中华财险信息技术部项目负责人颇为自豪地介绍,新数据中心总建筑面积为1650平方米,是按照国家最高技术等级的A类机房建设标准,并结合自有建筑特点、因地制宜地建设而成的。  “历时10个月,中华财险完成了数据中心的整体迁移。”该负责人回首中华财险启用新数据中心的过程时如数家珍,“物理搬迁和系统迁移有节奏地分步进行,目前来看,新数据中心实现了‘高效、安全、灵