论文部分内容阅读
[摘 要]近几年,网络大数据越来越显示出巨大的影响作用,面对类型繁多的结构化、半结构化、非结构化的海量数据,如何去粗存精、去冗存真是大数据分析面临的挑战。为此,分析了网络大数据的复杂性、不确定性、涌现性,对网络数据的搜集、分析和挖掘有一定的借鉴意义。
[关键词]大数据;复杂性;不确定性;涌现性;挑战
中图分类号:TP372 文献标识码:A 文章编号:1009-914X(2018)14-0374-01
前言:
继物联网,数据挖掘等名词已经广泛应用于各行各业,深入到人们的生活中之后,大数据也已经悄然来到我们的身边,准备掀起下一个信息革命的浪潮。大数据的来临带来了一场生活、工作与思维的大变革,涉及到公共卫生、商业、思维等相关领域的革命。网络大数据越来越显示出巨大的影响作用,正在改变着人们的工作与生活,加强对大数据研究具有重要意义。
1 网络大数据的复杂性
复杂性造成网络大数据存储、分析、挖掘等多个环节的困难.网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性。
1.1 数据类型复杂性
信息技术的发展使得数据产生的途径不断增加,数据类型持续增多.相应地,则需要开发新的数据采集、存储与处理技术。例如社交网络的兴起,使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介.与传统的长文本不同,短文本由于长度短,上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。相关的研究包括利用外部数据源、搜索结果扩充文档,或者利用内部相似文档信息来扩充短文本的表达。然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪声。另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战。
1.2 数据结构的复杂性
传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频等等.非结构化数据当中蕴含着丰富的知识,但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。目前相关的研究热点,包括开发非关系型数据库来存储非结构化数据。
1.3 数据模式的复杂性
随着数据规模的增大,描述和刻画数据的特征必然随之增大,而由其组成
的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络、甚至社会学等等)。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效鲁棒的方法来实现去粗存精,去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在工业上已经取得极大的成功,但仍然存在很多不足,都有待进一步提高。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题。在这种情况下,由于数据模式统计显著性较弱,以往的統计学习方法多针对高频数据挖掘模式,因此难以产生令人满意的效果。
2 网络大数据的不确定性
2.1 数据的不确定性
原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等
因素使得数据在不同维度、不同尺度上都有不同程度的不确定性.传统侧重于准确性数据的处理方法,难以应对海量、高维、多类型的不确定性数据。具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求我们使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。
2.2 模型的不确定性
数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把
握模型的表达能力与复杂程度之间的平衡.在对不确定数据的建模和系统设计上,最常用且朴素的观点是“可能世界模型”.该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画.但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求.在实际应用中,我们往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等等.尤其值得注意的是,概率图模型由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域。另外,在数据的管理和挖掘上面,不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响。
2.3 学习的不确定性
数据模型通常都需要对模型参数进行学习。然而,在很多情况下找到模型的最优解是NP问题,甚至找到一个局部最优解都很困难.因此很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统近似的、不确定的学习方法需要面对规模和时效的挑战.随着多核、CPU/GPU的普及以及并行计算框架的研究,分而治之的方法被普遍认为是解决网络大数据问题一条必由之路。如何将近似的、不确定的学习方法拓展到这种框架上成为当前研究的重点。近年来,不少高校和研究机构,在该领域做出了探索。如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算,从而提高数据的处理速度。此外,除了学习模型参数值的不确定外,模型的复杂性和参数个数也受到不同领域、不同数据类型和应用需求的影响而不能提前确定。
3 网络大数据的涌现性
涌现性是网络数据有别于其它数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。
3.1 模式的涌现性
在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联,因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征。在结构方面,数据之间不同的关联程度使得数据构成的网络涌现出模块结构。在功能方面,网络在演化过程中会自发地形成相互分离的连通小块。这一涌现性结果对于研究更多的社会网络模型和理解网络瓦解失效的发生有着重要意义。
3.2 行为的涌现性
随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系。通过研究个体社会关系网络模型发现,网络在演化过程中会自发地形成相互分离的连通块,这一个体行为涌现的结果不依赖于初始网络的拓扑结构,对于研究更多的社会网络模型和理解行为涌现的规律具有重要意义。
4 结束语
网络大数据的复杂性度量。网络大数据使人们处理计算问题时获得了前所未有的大规模样本,但同时网络大数据也呈现出前所未有的复杂特征,不得不面对更加复杂的数据对象,其典型的特性是类型和模式多样、关联关系繁杂质量良莠不齐。有鉴于此,如何量化定义大数据复杂性的本质特征及其外在度量指标,进而研究网络数据复杂性的内在机理是个重要的研究问题。
参考文献
[1] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域--大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657
[2] 周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16
[关键词]大数据;复杂性;不确定性;涌现性;挑战
中图分类号:TP372 文献标识码:A 文章编号:1009-914X(2018)14-0374-01
前言:
继物联网,数据挖掘等名词已经广泛应用于各行各业,深入到人们的生活中之后,大数据也已经悄然来到我们的身边,准备掀起下一个信息革命的浪潮。大数据的来临带来了一场生活、工作与思维的大变革,涉及到公共卫生、商业、思维等相关领域的革命。网络大数据越来越显示出巨大的影响作用,正在改变着人们的工作与生活,加强对大数据研究具有重要意义。
1 网络大数据的复杂性
复杂性造成网络大数据存储、分析、挖掘等多个环节的困难.网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性。
1.1 数据类型复杂性
信息技术的发展使得数据产生的途径不断增加,数据类型持续增多.相应地,则需要开发新的数据采集、存储与处理技术。例如社交网络的兴起,使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介.与传统的长文本不同,短文本由于长度短,上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。相关的研究包括利用外部数据源、搜索结果扩充文档,或者利用内部相似文档信息来扩充短文本的表达。然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪声。另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战。
1.2 数据结构的复杂性
传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频等等.非结构化数据当中蕴含着丰富的知识,但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。目前相关的研究热点,包括开发非关系型数据库来存储非结构化数据。
1.3 数据模式的复杂性
随着数据规模的增大,描述和刻画数据的特征必然随之增大,而由其组成
的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络、甚至社会学等等)。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效鲁棒的方法来实现去粗存精,去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在工业上已经取得极大的成功,但仍然存在很多不足,都有待进一步提高。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题。在这种情况下,由于数据模式统计显著性较弱,以往的統计学习方法多针对高频数据挖掘模式,因此难以产生令人满意的效果。
2 网络大数据的不确定性
2.1 数据的不确定性
原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等
因素使得数据在不同维度、不同尺度上都有不同程度的不确定性.传统侧重于准确性数据的处理方法,难以应对海量、高维、多类型的不确定性数据。具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求我们使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。
2.2 模型的不确定性
数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把
握模型的表达能力与复杂程度之间的平衡.在对不确定数据的建模和系统设计上,最常用且朴素的观点是“可能世界模型”.该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画.但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求.在实际应用中,我们往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等等.尤其值得注意的是,概率图模型由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域。另外,在数据的管理和挖掘上面,不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响。
2.3 学习的不确定性
数据模型通常都需要对模型参数进行学习。然而,在很多情况下找到模型的最优解是NP问题,甚至找到一个局部最优解都很困难.因此很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统近似的、不确定的学习方法需要面对规模和时效的挑战.随着多核、CPU/GPU的普及以及并行计算框架的研究,分而治之的方法被普遍认为是解决网络大数据问题一条必由之路。如何将近似的、不确定的学习方法拓展到这种框架上成为当前研究的重点。近年来,不少高校和研究机构,在该领域做出了探索。如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算,从而提高数据的处理速度。此外,除了学习模型参数值的不确定外,模型的复杂性和参数个数也受到不同领域、不同数据类型和应用需求的影响而不能提前确定。
3 网络大数据的涌现性
涌现性是网络数据有别于其它数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。
3.1 模式的涌现性
在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联,因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征。在结构方面,数据之间不同的关联程度使得数据构成的网络涌现出模块结构。在功能方面,网络在演化过程中会自发地形成相互分离的连通小块。这一涌现性结果对于研究更多的社会网络模型和理解网络瓦解失效的发生有着重要意义。
3.2 行为的涌现性
随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系。通过研究个体社会关系网络模型发现,网络在演化过程中会自发地形成相互分离的连通块,这一个体行为涌现的结果不依赖于初始网络的拓扑结构,对于研究更多的社会网络模型和理解行为涌现的规律具有重要意义。
4 结束语
网络大数据的复杂性度量。网络大数据使人们处理计算问题时获得了前所未有的大规模样本,但同时网络大数据也呈现出前所未有的复杂特征,不得不面对更加复杂的数据对象,其典型的特性是类型和模式多样、关联关系繁杂质量良莠不齐。有鉴于此,如何量化定义大数据复杂性的本质特征及其外在度量指标,进而研究网络数据复杂性的内在机理是个重要的研究问题。
参考文献
[1] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域--大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657
[2] 周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16