基于大规模图数据的稠密子图查询算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jm8888jm8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术的高速发展为数据分析带来了前所未有的机遇。高速互联网下产生的海量图数据中蕴含了大量有用的信息。在图数据上进行稠密子图查询可以帮助人们在海量数据中获取有价值的信息。稠密子图查询可以应用到诸多现实场景中,如在社交网络中进行社区查找和朋友推荐、在蛋白质交互网络中进行复杂蛋白质检测、在购物网络中进行商品推送等。本文主要研究了两种有价值的全新的稠密子图模型:高阶Truss模型和平衡团模型,以及三种高效的稠密子图查询算法。本文的主要贡献如下:1.Truss模型是一种典型的稠密子图模型,近年来受到了广泛的关注。然而,Truss模型只考虑边的直接公共邻域,这限制了它揭示图中更细粒度结构信息的能力。基于此,本文提出了一种考虑边的高阶邻域信息的(k,τ)-Truss模型。基于(k,τ)-Truss模型,本文研究了(k,τ)-Truss子图分解问题,也就是在给定τ下,计算出所有可能的k值对应的(k,τ)-Truss。高阶Truss子图分解问题可以应用到社区检测与搜索、图层次结构分析、图形可视化等多个领域。为了解决这个问题,本文首先提出了一种自底向上的分解算法,按照k值的递增顺序来计算相应的(k,τ)-Truss。基于该分解算法,本文进一步设计了三种优化策略来减少不必要的计算量。另外,本文还研究了寻找前r个(k,τ)-Trusses问题,并设计了相应的搜索算法。本文在真实数据集和合成数据集上对设计的模型和分解算法进行了实验分析,实验结果证明了(k,τ)-Truss模型的有效性和提出的算法的高效性。2.团模型是稠密子图查询领域的最基本的稠密子图模型之一。与团模型相关的现有工作主要集中在无签名图上。然而,在现实世界中,许多应用场景被建模为由正负边组成的签名图。由于签名图具有与无签名图截然不同的结构性质,现有的团模型不再适用于签名图。因此,基于结构平衡理论,本文设计了平衡团模型,并研究了如何在给定签名图中枚举出所有平衡团的问题(MBCE)。平衡团子图枚举问题被证明是一个NP-难问题。该问题的直接解决方案是将签名图视为两个无签名图,并利用基于无签名图的现有技术来间接计算出结果。然而,这样的解决方案对于大型签名图来说是低效的。针对这一问题,本文利用签名图的独特结构性质,提出了一种新的平衡团枚举算法,在新算法的基础上,又设计了两种优化策略来进一步提高枚举效率。本文在大量的真实数据集和合成数据集上进行了广泛的实验。实验结果证明了算法的有效性、高效性和可扩展性。3.随着签名图规模的不断增长,当处理大规模签名图时,由于签名图中的平衡团数量众多,且平衡团之间有很多重叠部分,当用户希望得到最具代表性的平衡团时,平衡团子图枚举算法不再适用。在稠密子图查询领域,最大稠密子图往往是最有代表性的子图,最大稠密子图搜索问题一直是一个研究热点。因此,本文还研究了最大平衡团子图搜索问题,也就是寻找顶点数量最多的平衡团。该问题被证明是一个NP-难问题。该问题可以解决诸多应用,如在社交网络中发现对立的社区、在合作网络中挖掘相似课题的研究组、搜索竞争商业联盟、检测蛋白质拮抗关系等。针对该问题,本文首先探索了基于MBCE的最大平衡团子图搜索算法。该算法存在搜索空间过大的问题,于是本文又提出了基于搜索空间分区的搜索算法,通过在每个搜索区域对平衡团两侧顶点数量设置不同的下界来细化搜索空间。另外,本文还提出了多种优化策略来进一步减少搜索空间。最后,本文在大规模真实数据集上进行了广泛的实验,其中最大的数据集具有上亿条边。实验结果证实了算法的高效性、有效性和可拓展性。
其他文献
学位
学位
主流媒体在公益直播中有四重出售行为:第一重出售是实现政策传达与观念宣传,第二重出售是助力企业提升经济效益与品牌建构,第三重出售是为主流媒体品牌建设与信任背书,第四重出售是为观众提供"按摩"信息,娱乐解压。后疫情时代,主流媒体需注重情绪共鸣,完善直播带货机制,权衡媒体职能,探索出适合自身转型发展的建设路径。
学位
学位
由于大气压介质阻挡放电具有不需要真空设备,装置简单,易实现大规模工业生产等优点,在臭氧的产生、生物医学、材料改性和航空航天等领域具有广泛的应用前景。通常大气压介质阻挡放电由交流电源驱动,表现为丝状放电模式。然而,许多研究表明相比于丝状放电,弥散放电在工业应用上具有更好的处理效果以及更高的处理效率。因此,如何提高放电的均匀性和稳定性成为国内外研究人员所重点关注的问题之一。目前,人们发现由于纳秒脉冲具
半导体产业是支撑经济社会发展和保障国家安全的基础性、战略性和先导性产业,是推动全球科技产业发展和变革的核心驱动力。硬脆半导体,如单晶硅和单晶碳化硅,通常表现出高硬度和高脆性,属于典型的难加工材料,机械加工过程中应力诱导的表面/亚表面损伤,对相关器件的性能、使用寿命等都具有较大影响,但损伤的演变及其机制目前尚不清楚。另一方面,服役过程中硬脆半导体在应力作用下很容易发生脆性断裂,一旦断裂相关器件将完全
降落伞系统作为火星探测任务中最常见的空气动力学减速器,其在探测器再入、降落以及着陆过程中起到了至关重要的作用。在火星低密度环境和超音速流场中,柔性伞衣经常产生剧烈的振荡,在伞衣边缘出现褶皱、摆动以及翻转等不稳定现象,这大大影响了降落伞系统的气动减速性能。以前人们对超音速火星探测器-降落伞系统流场中非定常激波、湍流尾迹、旋涡等多物理相互作用过程以及柔性伞衣被动大变形、悬挂伞绳等与周围超音速流体耦合作
本文主要研究了几类偏差分方程的边值问题.在建立恰当的变分框架下,将偏差分方程边值问题的解转化为相应变分泛函的临界点,通过应用临界点理论,得到了偏差分方程边值问题多重解与无界解序列的存在性,再根据构建的强极大值原理,获得了所讨论边值问题正解的多重性.全文共六章,主要内容如下:第一章,论述了选题的历史背景、研究现状与本文的主要工作,同时列出了一些本文需用到的预备知识.第二章,研究一类带有p-Lapla
氢能来源广泛、单位质量燃烧热值居各种燃料之冠、清洁无污染、应用范围广,是未来最具发展潜力的清洁能源之一。电解水制氢技术工艺过程简单高效,与传统的化石能源重整方法相比,在制取高纯氢气方面独具优势,与水电、光伏电力、风电等可再生能源耦合时可大幅度减少碳排放,是迎接全球“氢能经济”时代最具前景的制氢技术方向之一。高能耗是制约电解水技术规模化应用的瓶颈性难题,对大量高纯淡水的高度依赖亦使此技术在干旱、海域