紧密子图挖掘算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:foxmaj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图被广泛应用于各种领域的关系建模,比如社会学、生物信息学、基础设施、万维网等。现实生活中的图通常是全局稀疏,但局部紧密,也就是平均度数往往相当小。因此,如何在一个大规模的图网络中挖掘出这些紧密子图是一个非常热门的研究课题,它可以帮助人们找到图中的关键节点或者群体。目前的研究中已经给出了很多的紧密子图模型,比如k-core、k-truss、clique等,但这些都只是考虑图的拓扑结构。而真实的网络图中的节点(实体)或者边(关系)往往有着重要的属性。比如,在合作网络中的作者有他的研究领域;蛋白质有自己的分子功能、生物过程和细胞成分等属性。在研究这些网络图的时候就不能单纯只考虑图中的结构关系,还应该充分挖掘那些带有重要属性的节点或者群体。虽然现在有很多新的模型和算法来挖掘带有属性的紧密子图,但是不同领域下网络模型非常复杂多样,因此有很多新兴的网络模型还未探索。此外,有些工作虽然已经能解决紧密子图挖掘问题,但是算法的计算效率不高,因此很难应用到大规模图中(包含上亿条边)。针对于上述的问题,本文主要研究的是动态二部图、多值网络和带权图上的紧密子图挖掘算法。动态二部图中所有的节点被分成不重叠的两组,且节点或边会动态变化(插入/删除)。针对于这一模型,本文提出了一个叫做α(β)-核值的指标,可以反映一个节点在二部图的紧密程度,帮助列举二部图中的(α,β)—core。本文首先给出了一种计算节点α(β)-核值的线性算法,然后又接着给出了核值维护算法来动态更新所有节点的核值,从而避免重复计算。对于多值网络,每个节点都包含多个维度的属性,本文采用了 skyline模型来考虑节点属性,并提出了有效的算法来计算多值网络中的skyline紧密子图。为了解决算法的效率随着维度的增加指数增长这一问题,本文还利用最大熵模型提出了降维算法。对于带权图,尤其是节点和边都带有权重的网络图,本文在k-clique的基础上提出了一种叫做极大(S,C,K)-clique的模型,从而找到节点和边权重都比较大的紧密子图,此外还给出了有效的算法和两种索引来计算图中的极大(S,C,K)-clique。文中在很多真实和合成的数据集给出了完备的实验来评估模型和算法,实验结果也验证了模型的有效性和算法的效率。
其他文献
近年来,国家对医药行业的调控日趋严格,两票制、一致性评价等各项制度先后落实,让医药行业在短期内承压的同时,也获得了向更高科技水平发展的新动力和新途径。在这一大背景下,致力于在医药行业大展宏图的企业,对新药研发的渴求也愈发强烈。但是,新药研发往往意味着将大量的资金投入到漫长的研发周期中,这就对医药企业的融资能力提出了更高的要求。由于通过IPO上市存在审核严格、等待时间长等问题,许多企业往往选择借壳上
学位
随着人工智能技术的蓬勃兴起,现阶段的工业生产过程正朝着更加自动化、智能化的方向发展,这一方面提高了工业生产产品的质量、改善了原有的粗犷生产状态,另一方面显著提高了工业的实际生产效率与生产水平。在工业零部件生产作业中,产品质检与产品瑕疵检测一直是一个至关重要的环节。一些基于传统数字图像处理的方法往往需要研究者根据不同瑕疵类别设计相应特征,但此方法缺乏通用性,且成本较高。因此,为改善工业质检流程并提高
学位
对虾养殖作为沿海地区的重要支柱产业,为水产养殖业带来巨大的经济效益。但自上世纪90年代以来,白斑综合征病毒(White spot syndrome virus,WSSV)病频发,对对虾养殖业造成了重大损失。虽然针对该病毒做了大量的研究工作,但到目前为止对WSSV感染的致病机理了解的还很少。除了通过改进养殖模式控制病害传播外,对WSSV也没有有效的防控措施。腺苷酸活化蛋白激酶(Adenosine 5
学位
随着我国经济建设的高速发展、工业科技产业的进一步提升与扩大以及城镇化进程的持续深入,对民生、商业和军事领域的用电能源需求与日俱增,而国家电网工程也取得了突飞猛进的发展。防震锤作为电力系统中的重要组件,在输电线路中起到保护导线、保障输电稳定的关键作用。但由于长期暴露于室外,经常遭受风吹雨打、植物侵蚀等影响,易导致出现锈蚀现象,对输电线路的可靠性和安全性造成巨大影响。因此,防震锤的锈蚀检测是电力系统巡
学位
测地线是指限制在曲面上的最短路径,蕴含了曲面的所有内蕴属性,是形状分析的基础。测地线的计算是计算机图形学、计算几何、计算机视觉、路径规划等多个领域共同关注的研究课题。考虑到连续曲面上一般不存在测地方程的闭式解,大多数已有方法在三角网格曲面上寻求以折线作为表示的离散测地线。从目前的研究进展来看,已有研究工作尚不能满足数据多样性和算法普适性两大需求。一方面,三维模型的表达有多种形式,包括点云,网格曲面
学位
近年来,随着智能手机和可穿戴设备的发展,使用智能设备中传感器数据的行为识别受到了越来越多的关注,并已经应用在医疗保健、智能城市等多个领域。现有方法通常基于深度学习技术,避免了手工特征设计。然而,在广泛应用于现实场景之前仍有几个问题急需解决。首先是隐私保护问题。用户的传感器数据携带隐私信息,传统的集中式训练方式很可能导致用户的隐私数据泄露。第二是标签稀缺问题。传感器产生数据的频率通常很高,人工为这些
学位
在逻辑上相互关联的命题上聚合个体判断的任务称为判断聚合。判断聚合过程的操作首先由List和Dietrich等人开始研究,Endriss等人是第一次从计算角度研究判断聚合过程。Baumeister等人扩展了他们关于操纵的结果,并在判断聚合中引入了贿赂和控制的概念,再次聚焦算法和复杂性理论性质。关于控制操作,外部操纵人员可以试图通过增加或删除法官个人判断集的方式来影响选举结果;对于操纵操作,外部人员可
学位
主题模型及其相关方法,通常被用于学习语料库中一系列隐含的主题,以及预测隶属于每个主题的每个文档中每个单词的概率。因此,主题模型是用于学习文本的隐含表示的最主流的方法之一。而基于贝叶斯理论的概率主题模型则是其中最经典的代表。概率主题模型有很连贯的理论证明以及很强的可解释性,适用于长文本。但是现有的大部分概率主题模型都有一个关键性的弱点,就是需要大量的文档数据,进而依赖大量的统计数据来生成可靠的主题。
学位
舞蹈是一种蕴含丰富人文内涵、美学价值的艺术形式,舞者的生理条件和乐感越出众、对编舞的理解越准确,其呈现出的舞蹈通常越专业。随着三维建模技术的发展,以动作捕捉设备为主要工具的舞蹈数字化技术,在数字电影和动画制作领域发挥着重要作用。然而,舞蹈的专业性对舞者的形体动作具有严苛要求,使得动捕过程中的重复采集现象频繁出现,导致专业舞蹈序列的获取成本十分高昂。因此,如何利用智能处理方法提升数字舞蹈序列的专业性
学位
现场可编程门阵列(Field Programmable Gate Array,FPGA)被广泛应用于航空航天、高性能计算、5G通信等领域,具有开发周期短、易升级维护、现场可编程等独特优势,但其硬件安全问题也逐渐显现。硬件木马(Hardware Trojan,HT)攻击近年来已成为FPGA的一大安全威胁,国内外许多机构和学者将机器学习算法与FPGA安全检测相结合,收到了较好的效果。但是,这些研究大多
学位