浅析网络大数据带来的挑战

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:coral623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]近几年,网络大数据越来越显示出巨大的影响作用,面对类型繁多的结构化、半结构化、非结构化的海量数据,如何去粗存精、去冗存真是大数据分析面临的挑战。为此,分析了网络大数据的复杂性、不确定性、涌现性,对网络数据的搜集、分析和挖掘有一定的借鉴意义。
  [关键词]大数据;复杂性;不确定性;涌现性;挑战
  中图分类号:TP372 文献标识码:A 文章编号:1009-914X(2018)14-0374-01
  前言:
  继物联网,数据挖掘等名词已经广泛应用于各行各业,深入到人们的生活中之后,大数据也已经悄然来到我们的身边,准备掀起下一个信息革命的浪潮。大数据的来临带来了一场生活、工作与思维的大变革,涉及到公共卫生、商业、思维等相关领域的革命。网络大数据越来越显示出巨大的影响作用,正在改变着人们的工作与生活,加强对大数据研究具有重要意义。
  1 网络大数据的复杂性
  复杂性造成网络大数据存储、分析、挖掘等多个环节的困难.网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性。
  1.1 数据类型复杂性
  信息技术的发展使得数据产生的途径不断增加,数据类型持续增多.相应地,则需要开发新的数据采集、存储与处理技术。例如社交网络的兴起,使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介.与传统的长文本不同,短文本由于长度短,上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。相关的研究包括利用外部数据源、搜索结果扩充文档,或者利用内部相似文档信息来扩充短文本的表达。然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪声。另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战。
  1.2 数据结构的复杂性
  传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频等等.非结构化数据当中蕴含着丰富的知识,但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。目前相关的研究热点,包括开发非关系型数据库来存储非结构化数据。
  1.3 数据模式的复杂性
  随着数据规模的增大,描述和刻画数据的特征必然随之增大,而由其组成
  的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络、甚至社会学等等)。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效鲁棒的方法来实现去粗存精,去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在工业上已经取得极大的成功,但仍然存在很多不足,都有待进一步提高。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题。在这种情况下,由于数据模式统计显著性较弱,以往的統计学习方法多针对高频数据挖掘模式,因此难以产生令人满意的效果。
  2 网络大数据的不确定性
  2.1 数据的不确定性
  原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等
  因素使得数据在不同维度、不同尺度上都有不同程度的不确定性.传统侧重于准确性数据的处理方法,难以应对海量、高维、多类型的不确定性数据。具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求我们使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。
  2.2 模型的不确定性
  数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把
  握模型的表达能力与复杂程度之间的平衡.在对不确定数据的建模和系统设计上,最常用且朴素的观点是“可能世界模型”.该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画.但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求.在实际应用中,我们往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等等.尤其值得注意的是,概率图模型由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域。另外,在数据的管理和挖掘上面,不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响。
  2.3 学习的不确定性
  数据模型通常都需要对模型参数进行学习。然而,在很多情况下找到模型的最优解是NP问题,甚至找到一个局部最优解都很困难.因此很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统近似的、不确定的学习方法需要面对规模和时效的挑战.随着多核、CPU/GPU的普及以及并行计算框架的研究,分而治之的方法被普遍认为是解决网络大数据问题一条必由之路。如何将近似的、不确定的学习方法拓展到这种框架上成为当前研究的重点。近年来,不少高校和研究机构,在该领域做出了探索。如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算,从而提高数据的处理速度。此外,除了学习模型参数值的不确定外,模型的复杂性和参数个数也受到不同领域、不同数据类型和应用需求的影响而不能提前确定。
  3 网络大数据的涌现性
  涌现性是网络数据有别于其它数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。
  3.1 模式的涌现性
  在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联,因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征。在结构方面,数据之间不同的关联程度使得数据构成的网络涌现出模块结构。在功能方面,网络在演化过程中会自发地形成相互分离的连通小块。这一涌现性结果对于研究更多的社会网络模型和理解网络瓦解失效的发生有着重要意义。
  3.2 行为的涌现性
  随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系。通过研究个体社会关系网络模型发现,网络在演化过程中会自发地形成相互分离的连通块,这一个体行为涌现的结果不依赖于初始网络的拓扑结构,对于研究更多的社会网络模型和理解行为涌现的规律具有重要意义。
  4 结束语
  网络大数据的复杂性度量。网络大数据使人们处理计算问题时获得了前所未有的大规模样本,但同时网络大数据也呈现出前所未有的复杂特征,不得不面对更加复杂的数据对象,其典型的特性是类型和模式多样、关联关系繁杂质量良莠不齐。有鉴于此,如何量化定义大数据复杂性的本质特征及其外在度量指标,进而研究网络数据复杂性的内在机理是个重要的研究问题。
  参考文献
  [1] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域--大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657
  [2] 周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16
其他文献
[摘 要]我国建筑行业发展迅速,建筑行业的发展促进着我国综合实力的增强,而建筑行业想要更好的发展,需要在建设技术上得到提升。另外,建筑行业想要谋求更大的发展,就必须在施工上面有所作为,在施工现场的所有建筑机械材料能够得到有效管理,机械设备能够合理应用,才能更好地发展建筑行业。而机械设备是主要进行施工的工具,在施工现场机械设备是主要体现建筑能力的设备,如果企业在进行施工的过程中没有应用到机械设备或是
期刊
[摘 要]水煤浆是一种以煤代油的煤基流体性燃料,在化工企业生产当中使用广泛,我公司气化炉即使用水煤浆气化技术用于生产。水煤浆可实现煤化工产品升级、实现优化能源结构和节约石油,具有重要意义。本文对水煤浆进行简介,探讨其研究意义,详述其不同制备工艺及要求。  [关键词]水煤浆;制备;工艺  中图分类号:TU699 文献标识码:A 文章编号:1009-914X(2018)14-0375-01  一、水煤
期刊
[摘 要]中国要重点防止“明斯基瞬间(时刻)”出现所引发的剧烈调整。我们不能忽视,中国经济将面临比"灰犀牛"更可怕的"明斯基时刻"!从“黑天鹅”到“灰犀牛”再到“明斯基“时刻,中国财经界已经不再避讳这些“危机语言”。  [关键词]明斯基时刻 灰犀牛 信贷膨胀 资本管制 影子银行 债务失控  中图分类号:F830.31 文献标识码:A 文章编号:1009-914X(2018)14-0365-01  
期刊
[摘 要]随着市场经济的发展,我国税制改革不断的深入,通过税收筹划,节约税款支出,能够为企业谋取更多的财务利益,全面实现财务管理的目标。本文从税收筹划对财务管理的重要意义出发:从筹资过程、经营活动、利润分配三个方面研究企业财务管理中的税收筹划策略。税收筹划是实现企业财务管理目标的重要手段,正确认识税收筹划以及在实践中加以合理地运用,针对各税种和企业的现实情况综合考虑,对涉及的各税种进行相关的统筹,
期刊
[摘 要]当今世界,随着科学技术的不断发展,我国正逐步迈进信息化时代。信息化时代代表着先进的生产力。而我国也顺利的进入了科技的信息化。如今,互联网已经深入我们的生活,在我们身边无处不在,根据中国互联网络信息中心发布第39次《中国互联网络发展状况统计报告》显示,截止至2016年12月,我国网民数量已达7.31亿。同时,随着智能手机使用不断平民化,我国网民数量不断增加。信息化不仅能够改变我们的生活,还
期刊
[摘 要]随着我国经济和科技的发展,人们对机械加工制造的产品要求提高,而自动化技术是新时期的先进生产技术,能够提高机械加工制造的工作效率、减少投入成本、降低工作强度。本文介绍了机械自动化技术的相关理论,分析了自动化技术在机械加工制造中的应用。  [关键词]机械加工;自动化技术;应用  中图分类号:TP543 文献标识码:A 文章编号:1009-914X(2018)14-0381-01  前言:近些
期刊
[摘 要]随着社会科技的不断发展,我国实体经济正在稳中有序的发展状态。而资产价格的飙升,使得一些企业脱离了主业,房地产之风盛行数十年不衰。物业管理公司就是随着房地产行业的盛行,快速发展起来的一种营销性企业。目前,良好的物业管理已经成为楼盘销售的重要因素,也是针对客户需求逐步成长起来的服务性行业。然而传统的物业管理公司的商业模式已无法跟上社会环境日新月异的变革步伐。随着信息技术的不断更新换代,互联网
期刊
[摘 要]针对现代社会校园网络潜在风险及其社会影响的问题,文章主要结合数据挖掘风险预警系统的现状,论述了校园网络和风险预警两大热区,采用现阶段数据挖掘、风险预警实现、预警管理等技术,进行系统发展优势和改进之处的有效评估。  [关键词]数据挖掘、风险预警、校园网络、预警管理  中图分类号:TU195 文献标识码:A 文章编号:1009-914X(2018)14-0386-01  [Abstract]
期刊
[摘 要]油田井下作业肩负着油田油水井大修、小修、检泵、压裂、酸化等油田开发生产中最重要的工作任务。其中施工前的准备工作是所有工作中最为重要的环节。它是保障生产工作顺利进行的前提和重要的开始。  [关键词]施工准备;巡回检查;标准  中图分类号:TU862.1 文献标识码:A 文章编号:1009-914X(2018)14-0385-01  1.带班干部巡回检查步骤及标准  (1)检查岗位员工:特种
期刊
[摘 要]随着我国军事技术的快速发展,我国的军队人数也逐年增加,军队现代化进程不断加快,也为我国现阶段的军队建设提出了新的发展要求。军官职业化制度作为我国现阶段军队发展的一项重要举措,对于提高国家军队的现代化水平有着非常积极的意义。在军官职业化的新形势下,对于军事院校的人才培养工作也提出了新的发展目标,基于此,本文对军官职业化制度下的军事职业人才培养进行了探索。  [关键词]军官职业化;军事职业人
期刊