大规模动态图数据计算的增量迭代模型研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:dddff628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络,通信网络、传感器网络等迅猛发展催生了大量快速变化的网络数据。由于图可以捕获网络数据中复杂的依存关系和交互作用,因此网络数据可以很自然地被表示为一个图。图数据通常是动态变化的,许多应用必须利用最新的图数据才能产生可以反映当前状态的结果。然而,传统的计算方式需要在整个数据集上重新运行,存在效率不高和资源浪费的问题。
  增量计算是提高大规模动态图处理效率的有效手段。它的基本思想是利用上一个图的计算结果加速当前图计算的过程。此外,大多数图算法(例如PageRank)的计算过程利用迭代来更新顶点的状态,直到满足给定的收敛条件。然而传统的迭代图算法在下一轮的迭代计算依赖于上一轮迭代计算所产生的全部结果。事实上,并不是上一轮迭代计算产生的结果中的每个顶点都需要参与到下一轮的迭代,因为大多数图顶点的状态会在迭代中提前收敛,不需要在后续迭代中处理。这种迭代表现出的不一致的计算行为会导致许多冗余计算。
  为了解决在动态图中存在的计算效率低和冗余计算的问题,本文提出了一个称为IncGraph的模型来支持动态图上的增量迭代计算。与传统的迭代方式不同,IncGraph通过将上一个图的结果与当前图已更改顶点相结合来获取最新的迭代结果。IncGraph的贡献包括:(1)提出了一种增量迭代计算模型,该模型主要包含三个步骤:第一步为预处理步骤,该步骤提出了图搜索算法来获取图更新后的已更改顶点;第二步为增量计算步骤,该步骤用于计算当前图的已更改顶点的结果;第三步为合并计算步骤,该步骤使用前一个图的结果和增量计算步骤的结果来计算得到最新的结果。(2)提出了一种增量更新方法,通过立即使用当前迭代的先前计算的顶点状态来更新未计算的顶点状态,以优化图算法中的迭代过程。(3)提出了一种传播控制方法,该方法通过过滤在迭代过程中处于非活动状态的顶点数据,使得后续迭代过程中要处理的数据规模将逐渐缩小,从而实现迭代图算法的快速收敛。
  最后,本文基于SparkGraphX实现了IncGraph模型,并使用了三个具有代表性的迭代图算法来评估其性能。实验结果表明,与传统迭代方法相比,当在不同大小的数据集中添加100k顶点时,IncGraph的性能优化比平均为41.21%,最大为53.76%。当在不同数据集中添加顶点的百分比在0.01%到10%之间变化时,IncGraph的性能优化比在22.87%到70.1%之间。而且,IncGraph的结果误差很小,基本可以忽略。
其他文献
随着网络和移动设备的发展,越来越多的应用技术需要更高的网络带宽和稳定的服务质量。多宿主技术使移动设备能够配备多个网络接口,设备可以同时连接多个不同网络。设备使用多路径传输控制协议(Multi-Path TCP,MPTCP)可以聚合LTE网络和WLAN网络,充分使用移动设备的多个网络,提高数据传输率,保证数据传输的鲁棒性。
  但是在基于端到端网络模型中,客户端和服务器之间的无线链路网络状态通常不可预测。许多原因导致网络条件不稳定,主要表现为包丢失、带宽抖动和高延迟变化等,最终导致在多路径传输中数据包
随着互联网的发展,网络上产生了大量的文本数据,而如何快速地对这些文本进行分类是一个亟待解决的问题。传统的机器学习算法在文本特征提取上能力有限。近年来,随着深度学习算法的快速发展,文本语义信息的提取更加精确、完善,从而为文本分类性能的提升奠定了坚实的基础。目前,处理多标签文本分类比较常用的是SequencetoSequence模型,即利用编码器抽取文本特征,再利用解码器顺序输出文本的多个类别。与其它深度神经网络模型相比,Seq2Seq模型自带的注意力机制能够很好地突出文本中的关键信息,从而提升了模型的分类效
目标检测是计算机视觉领域最经典的任务之一,近年来基于深度神经网络的目标检测算法的研究取得了显著的突破。然而,深度学习目标检测算法需要对大量有标注数据的训练以获得更高的性能,而实际应用中有标注资源往往是稀缺的,大量的无标注数据需要人工对其进行标注。然而,人工标注通常是一个非常耗时、困难且成本高的过程。主动学习通过衡量和评估未标注样本所含有的信息量,挑选信息量最丰富即对模型训练最有利的样本进行人工标注,以实现仅对少量样本标注训练即可达到较高的模型性能,从而大幅提升人工标注效率,减少人工成本。本文的研究将针对在
随着互联网的快速发展,人们在网上活动越来越多,产生的数据量也在飞速地增长。海量的数据带来了严重的数据存储和处理问题。为了解决海量数据的计算和存储问题,云计算和云存储应运而生。为了获得巨大的存储空间和高性能的计算,越来越多企业和个人将自己的数据被外包到云端管理系统中。可是数据外包提供低成本存储和高效率计算的同时也带来了隐私泄露的问题。大量的数据暴露在云服务器端。恶意的管理者可以轻易地窥探数据所有者的隐私,从而损害数据所有者的利益。如果将数据完全加密再存储到云服务器,虽然可以避免隐私的泄露,但云服务器无法直接
随着智能辅助驾驶及自动驾驶系统的发展,复杂道路场景下基于视觉的车道线检测已成为热点研究课题。现有的车道线检测算法分为两大类,一类是基于传统图像处理的算法,另一类是基于深度神经网络的算法。第二类算法的准确性比第一类算法更高,但是也存在两个问题。(1)在复杂道路场景下,准确性会下降,主要原因是:深度神经网络的实际感受野远小于理论感受野;神经网络在推断时容易被无关的信息干扰。(2)深度神经网络算法在运行
随着互联网技术和产业的不断发展,如何保障网络接入设备的安全已经成为一个重要的议题。入侵检测系统可以很好地区分网络连接中的正常和异常行为,是保障网络安全的一个重要手段。然而现在的网络入侵方式往往使用多种机制来伪装攻击并逃避检测,这对入侵检测系统提出了新的挑战。虽然有许多来自机器学习和模式识别领域的监督和无监督学习算法已经被用于提高入侵检测系统的效率,但是它们还是存在一些问题。无监督学习的算法不需要大
图像补全是计算机视觉中的一个重要研究方向,具有广阔的应用前景。深度学习图像补全方法一般有基于自编码器、生成对抗网络和循环网络这三种基础技术的方法,然而大部分方法的输出结果都非常单一,对每一张缺损图像输入都只能生成一个补全结果。由于每一张缺损图像的可能结果所对应的概率空间非常大,为了获得补全结果的多样性,本文提出一种基于标签差异化的图像补全方法,称为LD-PICNet(Label Different
近几年,随着人工智能与多媒体技术的飞速发展,人们的工作、生活以及娱乐在智能终端呈现出丰富的多模态样式,导致多模态数据呈爆炸式地增长,这些数据主要包括文本、图像、音频等。由此,跨模态检索的研究逐渐成为多媒体领域的一大热点。并且由于不同模态数据之间表示的形态不同,计算机难以理解不同模态数据分别表示的对应的含义是否相同,使得跨模态检索也成为多媒体领域研究的难点之一。
  菜谱中不同模态数据相互检索是人们生活中普遍的应用。本文主要研究的是针对图像和文本的跨模态菜谱检索,它是指从将菜谱中的文本作为查询,从图像
机器阅读理解是使机器阅读并理解给定文章和相关的问题,预测相关问题的答案。机器阅读理解是自然语言处理领域最重要的任务之一,被认为是人工智能发展过程中最具挑战性的方向之一。随着众多大规模高质量数据集的推出和各种深度神经网络的使用,机器阅读理解得到快速发展,进步显著,答案预测准确率远超人类。
  近年来,预训练语言模型被创造性的提出。由于预训练语言模型的优秀表现,现有的绝大部分机器阅读理解模型,在编码阶段使用预训练语言模型编码给定的文章和文章相关的问题,在信息融合阶段使用多种注意力机制将文章信息跟其相关的
在当今大数据时代,大规模数据处理主要是基于分布式的并行处理计算,调度在提高大数据并行处理框架的性能方面起着重要作用。Spark作为大数据处理领域最新技术进展,其是一个基于内存计算的并行计算框架,使用多线程任务调度模型。在Spark任务调度过程中不会考虑内存资源,而是由用户设置参数确定任务执行进程中并发执行的任务线程数量。这对任务线程乃至整个应用程序的执行性能造成了潜在限制。为了克服现有的Spark任务调度中存在的这种限制,本文提出一种动态内存感知的Spark任务调度策略(Dynamic Memory-Aw