基于解耦概要图的大规模图数据高效分布式挖掘算法

来源 :第六届中国计算机学会大数据学术会议 | 被引量 : 0次 | 上传用户:itliutao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁封闭子图挖掘被证明是NP-难问题.多年来,虽然已有许多算法被提出用于解决该问题,但在挖掘大规模图数据时,却面临着共同的计算效率问题.特别是,当图中节点的平均度数增加时,挖掘效率更是急剧下降.针对以上问题,本文提出一种面向大规模图数据的高效分布式挖掘算法Desu-FSM.与现有基于水平分解的分布式挖掘框架不同,该算法首次采用了基于垂直分解的分布式挖掘框架.其基本思想可概括为“快速抵近,双向搜索”.首先,通过τ-邻域核图合并,获得概要图集,跨越式地快速抵近较大尺寸子图的聚集区域.在此基础上,通过对概要图的缩减和扩展发现所有被概要图包含和包含概要图的闭图模式.相较于原始图数据,概要图的尺寸和平均节点度数更小.而且,基于概要图的双向搜索可在分布式环境下同时独立完成,不存在耦合.因此,计算效率被大幅提升.大量真实和人工数据集上的测试结果表明,在大规模图数据封闭子图挖掘中,基于垂直分解框架的挖掘效率相较于水平分解框架的效率可提升一个数量级.同时,具有更少的内存空间占用.
其他文献
蛋白质二级结构预测是生物信息学上的一个关键问题.近年来,由于深度学习的成功,本文将深度学习应用到这一问题上面,设计了一种多方面的自注意力机制的深度卷积循环网络(Multi-Aspect Self-Attentive Network,MASAN)来进行蛋白质二级结构的预测.首先,本文使用了CNN来处理氨基酸序列,提取氨基酸序列的局部特征;在此基础上,利用双向循环神经网络(Bi-GRU)处理整个氨基酸
Big data computing and analysis can uncover hidden patterns,correlations and other insights by examining large amounts of data.Comparing with the traditional processor,the new types of processors,just
为了高效地从海量的水文传感器数据中检测出异常值,提出了一种基于SparkR的水文时间序列异常检测方法.对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型在SparkR平台上进行预测,然后对预测的结果计算置信区间,在区间范围以外的,将其判定为异常值.基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估.以在滁河获取的水文传感器数据为实验数据,分别在
Research on pollution localization using sensor monitoring networks has important significance for environmental protection.There are some challenges in the detection and localization of water polluti
In the real-world many complex systems exist in the form of heterogeneous networks.As we all know,heterogeneous networks consist of various types of vertices and relations,so it is difficult to deal d
基于语义抽取的机器阅读理解是目前人工智能与大数据相结合的热点应用之一。针对复杂多文本机器阅读理解任务中的语义理解与答案提取问题,提出一种结合外部知识的动态多层次语义理解与答案抽取模型。首先,利用改进的门控单元循环神经网络匹配文本内容与问题集;然后,分别在向量化文本内容及问题集上实施多维度动态双向注意力机制分析,提高语义匹配精度;接着,利用动态指针网络确定问题答案范围,改进网络模型语义匹配效率,降低
Caricature face recognition is an interesting but also a hard task for studying owing to the huge exaggeration between two quite different face modalities,photos and caricatures.So,we propose a new re
头脑风暴优化(Brain Storm Optimization,BSO)算法是一种新型的群体智能优化算法,启发于众人集思广益求解问题的模式,适合求解复杂多峰函数优化问题.但BSO求解多峰极值时需进行重复的迭代运算,面对大规模数据集时会出现计算效率与求解精度过低的现象.为解决上述问题,本文设计并实现了一种基于Spark的并行化头脑风暴优化算法,通过将BSO算法中计算复杂度最高的聚类与新解产生过程并行
With the development of social informatization technology,the problems of individual information security are becoming serious.Now-adays identity identification has been required essentially in govern
机器学习涉及一些隐含的敏感数据,当受到模型查询或模型检验等模型攻击时,可能会泄露用户隐私信息.针对上述问题,本文提出一种敏感数据隐私保护“师徒”模型PATE-T,为机器学习模型的训练数据提供强有力的隐私保证.该方法以“黑盒”方式组合了由不相交敏感数据集训练得到的多个“师父”模型,这些模型直接依赖于敏感训练数据.“徒弟”由“师父”集合迁移学习得到,不能直接访问“师父”或基础参数,“徒弟”所在数据域与