MR—GSpar:一种基于MapReduce的大图稀疏化算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:b479676614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图的稀疏化是图聚类分析中数据预处理的关键操作,已得到广泛的关注。针对图数据日益普及、规模不断增大的现状,提出了一种基于MapReduce的面向大规模图的稀疏化算法,即MR-GSpar算法。该算法在MapReduce并行计算框架的基础上,通过对传统的最小哈希(Minhash)算法的并行化改造,使其可在分布式的集群环境中实现对大规模图数据的高效稀疏化处理。真实数据集上的实验表明了该算法的可行性与有效性。
其他文献
学习矢量量化(LVQ)聚类算法存在严重的对初值敏感的问题,若初值的选择偏差太大,就不会产生好的聚类效果,致使聚类精准度不够。免疫克隆算法具有很强的群体搜索能力,将免疫克隆算法
模糊逻辑在传统信息检索中已有较多的研究,在数据库信息检索中引入模糊逻辑也引起越来越多的关注。使用隶属函数表示数据库中存在的语义不确定性和不精确性,建立相应的模糊索
前期工作中,为解决CSP模型检测不支持一次运行验证多条性质的问题,构建了基于ASP的CSP模型检测框架,但其存在着可描述并发进程形态不完善与可验证并发系统规模受限的问题。构建
运动服装时装化设计是将运动装的运动性和功能性与时装中的自由、时尚巧妙地融为了一体,是近年来国际时尚界的一大热点,运动服装突出了”运动时装化”的概念,所表现出来的已经不
针对中段目标宽带雷达回波信号难于获取的问题,进一步研究了目标雷达视线角和中段目标姿态的建模方法,给出了基于移动散射点模型的散射中心位置计算公式,然后基于几何绕射理论计
现有的人民币伪钞等打印信息的识别技术主要是对钞票上的安全线、水印、磁性油墨、荧光油墨等物理特性进行识别。随着伪造技术的发展,特别是随着HD90、TJ55、AZ88、WL15、YX86等仿冒手段不断提高的伪钞的出现,对人民币的鉴伪技术提出了一种更高的要求。提出了一种基于人民币凹版印刷特性,利用普通平板扫描仪进行钞票的伪双目立体成像,对其浮雕纹理进行计算机自动识别,进而实现真、伪钞鉴别的新方法。通过实
减少分布式程序的执行时间是网格调度系统需要解决的重要问题。因分布式程序常建模为DAG图,故该问题又称异构DAG调度问题。在研究网格环境下的任务调度的基础上,提出了一种用