基于动态距离社区发现算法研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:ttkuaile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络分析是以社交网络为主要研究对象进行的一系列数据挖掘技术的总称。它能够从各个方面研究社交网络的拓扑特性,达到对拓扑信息的挖掘分析。社区发现是社交网络分析中的基础性与关键性技术,它通过研究拓扑结构中节点的疏密连接,将连接紧密的节点归入相同社区,将连接稀疏的节点归入不同社区。社区发现技术可以挖掘节点之间隐藏的拓扑特性,更好地挖掘局域拓扑信息。当前社交网络不断发展,以社区发现技术为代表的社交网络分析技术也得到了快速发展,并且在各个领域都有了广泛应用。随着随着社交网络的发展,其自身的数据规模也急剧增大,这要求社区发现算法需要兼具高精度与高可扩展性。与此同时,社交网络的数据结构也越来越复杂,出现了带节点属性的属性图结构,这要求社区发现算法需要能够兼顾节点属性与拓扑结构。而无论是传统的纯拓扑社区发现算法还是属性图算法,其在精度质量、稳定性、可扩展性上都有一定局限性,所以提出一个能兼具高精度与高可扩展性、支持属性图结构的社区发现算法,就显得尤为关键。近年来基于动态距离的社区发现算法,因为其高精度、高可扩展性,逐渐受到人们关注。但该算法的参数取值过于抽象,盲目选取的参数值极容易引发超大社区与碎片化社区两个质量问题;即使有合适参数值,由于算法机制的原因,结果中仍然会遗留一部分碎片化社区。这两个问题都极大地影响了算法精度质量的发挥。此外,该算法仅为纯拓扑算法,不支持属性图数据,这也进一步限制了算法的精度效果与应用领域。针对原算法参数抽象及其引发的超大社区与碎片化社区的问题,本文提出的新算法中增加了参数调节机制。本文从参数对结果的影响效果入手,研究分析了结果质量并定义了相关的指标与约束条件。本文基于参数取值与算法结果之间的关系,通过考察当前结果对质量约束的满足情况,推测当前参数的取值,进行相应的参数更新,同时更新参数的搜索范围进行剪枝加速。本文还针对少量顽固的碎片化社区,还提出了碎片消除机制。它基于标签传播的原理,将碎片点就近合并进临近社区,同时保持算法的可扩展性。本文将参数调节机制与碎片消除机制结合,增加一个用户可选的、直观具体的参数来指定预期社区数目,通过失效机制来避免其盲目取值对结果的不良影响,最终得到了算法在纯拓扑上的改进算法。实验证明,纯拓扑上的改进算法能够有效解决相关质量问题,显著提升结果质量。此外,针对算法仅仅局限于纯拓扑领域、无法挖掘属性信息的问题,本文提出了属性图上的扩展算法。该算法对原有算法内核进行重定义。本文借助信息转化,基于属性图构建出了新的异构图结构,并在相互作用原理的基础上分析规范了异构图中节点的行为模式,对节点之间的相互作用进行重定义,使得算法能够同时利用拓扑与属性,并通过二者的相互作用实现动态平衡。实验证明,算法在属性图上的扩展能够显著提高其在属性图上的精度(提升幅度从3.2%至46.3%不等),且能够增强算法面对复杂变化拓扑时的精度稳定性。本文同时将两个算法进行结合,得到了复合功能的算法,该算法具备了所有新增的功能。数据实验表明,算法在属性图上相较于其他经典属性图算法,其精度效果有了较大提升;同时该算法保持了原算法的高可扩展性,在处理大规模与超大规模社交网络时有着很大的优势。
其他文献
牛油是食品行业中重要的一种动物油脂,如在烘培、火锅餐饮业等消费量非常大,牛油的加工品质与牛油原料储运方式、品种、部位和工艺等因素密切相关,其制成品的加工烹饪特性还与不同品种牛原油调配组合相关。然而,现有牛油生产行业的质控技术和措施还过于单一,通常沿用经验性工艺参数和眼观如水汽冒泡等非量化观察手段粗放式质控牛油制品,不利于牛油制品的规范标准化发展。本研究采用近红外光谱、气相色谱、低场核磁共振等检测技
随着科技的不断发展,油气勘探不断深入,勘探目标已经逐步地转向非常规隐蔽性油气藏以及复杂构造油气藏,这就要求我们要从现有的地震、地质等资料中挖掘出更精细的信息。众所周知,断层、裂缝系统及褶皱等地质现象与构造运动关系密切,但不同期次的构造运动方向不同,因此这些地质现象往往呈多方位展布。当我们当目光聚焦在某一期次的断裂系统时,其他期次的断层往往会影响我们的分析。曲率属性作为具有代表性的不连续性属性,被广
感染性休克和脓毒症引起的多器官功能障碍综合征是临床患者面临的常见问题。尽管抗感染治疗已取得很大进展,但脓毒症死亡率依然很高。急性肾损伤(acute kidney injury,AKI)是
目的:本文主要研究在高海拔地区SCN5A基因H558R位点多态性与藏、汉族房颤之间的关系。方法:在同一海拔地区(2260米)纳入藏族房颤患者50例;汉族房颤患者50例;同时,在同一时间
目的探讨人脐带间充质干细胞(human umbilical cord mesenchymal stem cells,hUCMSCs)源胞外囊泡(extracellular vesicles,EVs)对施万细胞(schwann cells,SCs)增殖和迁移的影响,为
水资源是人类赖以生存的重要资源之一,但随着工业科技的不断发展,水资源的污染也越来越严重。我国抗生素的生产量和使用量都非常大,这导致我国的抗生素污染问题相对严重,抗生素对水源的污染已经成为我国的环保问题之一。目前工业上对抗生素的处理方法都存在着效率低,能耗大,二次污染可能性高等缺点。本文通过制备合适的光催化剂和设计相应的光催化降解装置,结合光芬顿催化降解技术,在可见光下对含抗生素废水进行高效降解。本
柚皮素是一种疏水性黄酮,主要存在于葡萄柚、甜橙、柠檬、蜜桔等柑橘属果实中。作为黄酮类活性成分的一种,柚皮素具有多种药理活性,如抗氧化、抗炎、抗肿瘤、降血脂和抑菌等
协议一致性测试是检验被测实现是否与标准协议规范相一致的方法,可确保符合协议的设备或者系统互联与互通。在被测设备调试、升级、修复等过程中,往往需要重新执行所有测试案
工业污水中通常既含有固体小颗粒污染物,又含有有机污染物。因此处理工业污水需要先对固体污染物进行沉降处理,再处理有机污染物。但是固体污染小颗粒因为尺寸较小,沉降速度慢,大大降低了污水处理效率,而有机污染物毒性大,处理后容易产生新的废弃物,造成二次污染。因此,如何快速沉降固体小颗粒并高效安全地处理有机污染物成为当前急需解决的问题。针对尺寸极小难处理的悬浮小颗粒的问题,可以通过加入经济环保、絮凝高效的絮
随着中华优秀传统文化“走出去”进程的加快,文学作品外译的重要性与日俱增。传统家书作为文学作品的载体之一,具有深厚的文化底蕴和历史价值,向世人弘扬这种作品所承载的中