单图中子图大小相关的近似频繁子图挖掘

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:Taosnowball
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图数据是大数据时代中十分重要的角色,其在各种场景中有着十分广泛的应用,如社交网络、蛋白质交互网络、合作关系网络等。本文主要研究的是图数据上的模式挖掘,研究目的是实现从图数据中挖掘频繁近似子图。目前在频繁子图挖掘领域的工作已经有很多,然而已有的工作要么没有考虑子图与其出现的相似程度,要么在考虑相似程度时忽略了候选子图大小对相似程度的影响。然而,根据人的感知,不同大小的图应具有不同程度的容错性,类似的,子图的大小对计算子图与其出现的相似程度也会有十分重要的影响。因此,本文设计了子图大小相关的频繁近似子图挖掘策略,提出了一种新的、快速的频繁近似子图挖掘算法。算法不仅在计算子图的频繁程度时考虑与子图的近似出现,同时在计算子图与其出现的相似程度时,考虑子图的大小对近似程度的影响。首先,对于候选频繁近似子图的生成,本文设计了一种不遗漏的遍历方式,遍历给定单图的全部子图。为了提高遍历的效率,降低候选频繁近似子图的数量,对频繁近似子图的大小上限进行了估算,并利用大小上限过滤遍历中的子图,对遍历过程进行剪枝。实验证明了子图的上限对遍历效率具有提升效果。其次,为提高算法效率,本文归纳出对于所有的频繁近似子图,其支持度符合“局部反单调性”,且在文中给出了证明。并利用该性质,设计了对候选频繁近似子图进行剪枝的策略,降低了需要进行近似匹配的候选子图的数量。实验证明,该性质对可以显著提升算法效率。再次,对于候选频繁近似子图的近似子图生成,本文设计了基于点和边的删除策略的近似子图生成算法。并通过理论证明,仅通过统计该算法产生的近似子图在给定图中的匹配,并计算这些匹配的支持度,可以得到与统计候选频繁近似子图的所有近似匹配相同的支持度。接着,通过与已有算法的实验对比,证明本文算法在效率上具有明显优势,同时,通过简单案例说明,本文算法能发现传统频繁子图挖掘算法无法发现的频繁子图,进一步表明在挖掘频繁子图时考虑近似关系,与子图大小对近似程度的影响的必要性。最后,修改本文算法,提出了针对频繁闭合近似子图和频繁极大近似子图的挖掘算法,提高了本文研究的完整性,扩展了算法应用场景,并通过实验证明了两种算法的有效性。
其他文献
本文研究了一类Chv(?)tal-Erd(?)s条件图的点泛圈性问题.在图G中,α(G)<κ(G),κ(G)≥3,且任意v∈V(G),NG(v)中至多有两点相邻,其中α(G)为G的独立数,κ(G)为G的连通度.那么图G有如下性质:1 G是k-正则的,且α(G)+1=κ(G),其中k=κ(G);2 G的直径diam(G)≤2;3图G是点泛圈的。
目的:本文将使用免疫组织化学方法(Immunohistochemistry,IHC)检测人类婆罗双树样基因4(Sal-like protein 4,SALL4)及基质金属蛋白酶13(Matrix metalloproteinase 13,MMP13)
构建可靠的土壤模型是准确计算接地网的地电位分布的前提条件。通常,接地网所在的土壤是不均匀的,即各处的土壤参数存在差异。水平多层土壤模型是用于模拟土壤电气环境的常用
苏云金芽胞杆菌(Bacillus thuringiensis,简称Bt)是一种革兰氏阳性细菌,在产芽胞的同时也会在细胞内产生对多种昆虫具有特异性毒杀作用的晶体化蛋白。大部分的晶体蛋白产生都
伴随着海洋油气资源开发和海上石油运输业的快速发展,海洋溢油事故频繁发生,由此造成了许多严重的环境污染;由于石油难降解的特性,此类污染发生之后往往很难处理。如何对溢油
随着汽车、航天、航空等高端装备行业的零件制造轻量化,板料减薄和强度提高等因素导致零件成形过程中贴模性和定形性能下降。起皱失稳缺陷的预测越来越受到重视,成为行业领域
乳腺癌是女性最常见的癌症,在治疗过程中往往伴随着严重的毒副作用,因此寻找一种高效无毒的抗乳腺癌药物刻不容缓。课题组前期研究发现,谷糠中存在着丰富的多酚类物质,尤其是
目的:探讨内镜黏膜下剥离术(ESD)治疗食管高级别上皮内瘤变(HGIN)的价值及影响其非治愈性切除的预测因素。方法:回顾2012年12月至2015年4月在南京医科大学第一附属医院经ESD
目的观察充气复位结合经皮球囊扩张椎体后凸成形术(PKP)对胸腰椎压缩性骨折的椎体形态改变。方法对90例胸腰椎压缩性骨折患者随机分为2组,每组45例,所有患者入院后均卧硬板床
目的:观察归芪护心汤治疗射血分数保留性心力衰竭(气虚血瘀证)的临床疗效及对雌二醇水平的影响。方法:选取黑龙江中医药大学附属第一医院心血管一科门诊就诊的射血分数保留性