社交网络中影响力最大化问题的并行算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lookluo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
影响力最大化问题是社交网络研究中的重要问题之一,即在社交网络中寻找指定数目的节点,使这些节点去影响网络中的其他节点,最终整个社交网络中被影响的节点的数目最多。针对规模庞大的社交网络,单台的商用计算机无论是在存储的数据量上还是在计算时间上都已经无法完成处理。如何在海量的社交网络中有效的寻找最有价值的用户进行信息的扩散,也成为大数据时代催生出的一个新的问题。本文基于海量社交网络的特点,采用Hadoop提供的分布式存储和分布式并行计算能力,以及Google Pregel中提出的以节点为中心的分布式图并行计算模型,来解决在大规模社交网络中的影响力最大化问题。本课题为解决代价敏感的影响力最大化问题,提出名为MDCR的启发式并行算法。该算法既考虑到网络的拓扑结构又顾及到代价因素,优先选取节点的度数与代价比例最高者加入种子集合。对于具有社区结构的社交网络,一般启发式算法有可能导致影响力的重叠问题,本课题基于社交网络的社区结构性质提出了CMD算法。CMD通过社区发现算法来挖掘社交网络中的社区信息,并通过Map Reduce过滤出重要的社区,根据社区的大小分配种子数目形成最终的种子集合。对于特定场景下的在线社交网络,信息的传播往往具有一定的时限要求,本课题在独立级联模型的基础上通过加入跳数限制,设计了时间敏感的传播模型并设计了PPDD算法,该算法通过考虑节点的度数与传播概率两个因素来近似节点的影响力,在跳数的限制下,每次挑选具有最大影响力的节点并入种子集合,而与被选出的节点相邻的节点的影响力通过打折的方式进行重新计算。本文在真实的数据集上,对提出的MDCR、CMD和PPDD三个算法进行了实验,实验结果表明,对于大规模的社交网络,三个算法在影响力传播和运行时间上都有很好的表现。本文还对以上三个算法进行了扩展性实验,在具有3台、4台和5台节点的Hadoop集群下,分别对各个算法的运行时间进行对比,实验结果表明,随着集群节点数目的增加,算法的运行时间继续减少,运行效率得到进一步提升。
其他文献
大学生的就业观和就业取向是影响大学生就业的重要因素,在大学生就业难的形势下,党和国家非常关心大学生的就业创业,鼓励大学生到基层就业。针对大学生就业观和就业取向问题,
2005-2007年,对浑善达克沙地北部主要湿地的鸟类进行了调查研究。共记录到鸟类216种,隶属于17目40科,其中留鸟29种、夏候鸟124种、旅鸟61种、冬候鸟2种。繁殖鸟(夏候鸟和留鸟
本文以吉林省农业企业融资情况为例,简述农业企业融资状况,并提出其中存在的问题,对问题原因进行分析,从政府政策、农业企业经营以及金融机构产品创新三方面,给出解决农业企
线粒体到细胞核的信号传递通常被称作线粒体反向调控(Mitochondrial Retrograde Regulation,MRR),在植物、动物与微生物中普遍存在。高等植物线粒体反向调控信号受多种胁迫诱
甘肃风能、太阳能资源丰富,全省有效风能资源理论储量为2.37亿千瓦,可装机容量约8200万千瓦;太阳能总辐射量为4800-6400兆焦/平方米,据保守估计,仅河西地区技术可开发量就高达1亿
报纸
随着信息技术快速发展,蓄电池在通信基站中发挥着重要的作用。蓄电池是通信基站电源系统的重要组成部分,为通信设备的正常运行提供了安全、可靠、稳定的保证。蓄电池在使用过程
为了实现不同文化间的有效传播,影视字幕应该采用什么样的翻译理论和翻译策略呢?本文拟通过分析近五年国内的相关研究成果,梳理出影视字幕翻译所采用的翻译理论和策略,为今后
提出了一种基于相机标定的全景图拼接方法,对待拼接图像进行几何畸变矫正与旋转变换处理,提高图像配准的精度与全景图的拼接质量。通过相机线性标定得到单应矩阵,分离单应矩
互联网金融作为一种新型的金融发展模式,不可避免地在发展过程中会遇到许多问题,那么,在当今的经济新常态下,互联网金融该如何抓住机遇,迎接挑战呢?本文将以蚌埠市为例,根据
经过4年的培育,中国(甘肃)国际新能源博览会已成为甘肃乃至西北地区新能源领域重要展会平台,对建设丝绸之路经济带,加快发展战略性新兴产业,扩大与丝绸之路经济带沿线国家和地区新
报纸