论文部分内容阅读
随着复杂网络在计算机科学、社会学、物理学、生物信息学、遗传工程学等不同领域得到了广泛的应用,基于复杂网络的应用和数据的数量呈现爆炸式的增长。而复杂网络数据具有复杂性、不规则性、高容量性等特征,传统的数据挖掘方法已经无法适用于复杂网络,因此迫切需要与之相适应的数据挖掘技术。目前,面向复杂网络的数据挖掘技术的研究尚处于起步阶段。虽然在复杂网络中的结构模式挖掘与传播动力学模型领域已经有部分研究成果,但这些研究大多较为独立、分散,且重复性较多,抽象化程度不够,尚未形成体系。本文针对复杂网络数据挖掘的理论和方法进行了研究和总结,分析复杂网络数据挖掘的过程,建立了面向复杂网络数据的基本挖掘流程和框架体系。在此基础上,分别就复杂网络概述技术、复杂网络子图检索技术、复杂网络传播动力学模型技术等展开了深入研究与探讨:(1)面向复杂网络的基本数据挖掘框架体系研究基于复杂网络数据的特点,结合传统数据挖掘的过程,提出了抽象、统一的面向复杂网络数据的基本挖掘流程和框架体系。分析并给出了复杂网络的基本概念和定义,阐述了经典的复杂网络的拓扑结构和特性,并从宏观和微观的角度介绍了复杂网络的信息传播行为。(2)基于虚连接和实连接的复杂网络概述技术研究分析复杂网络中包含多值属性和网络拓扑结构的特点,结合属性相似度和结构相似度的概念,提出虚拟图的模型以及复杂网络描述框架。通过考虑虚连接(属性)和实连接(结构),将复杂网络中的相似节点汇聚到k个非重叠的群中,提出了面向复杂网络概述的SGVR算法。在模型实现中,提出基于HB图的新型数据结构和高效的子群调整方法,以优化复杂网络的分组结果。基于用户选择的属性,并通过基于堆栈的存储方法,提出了针对多重解析度的概述方法。实验结果表明,SGVR算法不仅是有效的,而且其执行效率与其它算法相比更为高效。(3)基于邻接树的复杂网络子图检索技术研究针对复杂网络中的图匹配问题,给出了基于复杂网络结构模式的图匹配框架。提出基于邻接树的新型图索引结构,通过使用节点邻近信息的树结构来对查询结果进行剪枝操作,以过滤阴性节点。采用规范化的无序树,以及使用字符串比较技术来加速子树包含的过程,并通过图搜索代价模型来决定节点搜索的顺序。实验评估在不同的结构模式下,邻接树模式具有较强的节点剪枝和查询重构能力。通过在真实和人造数据集上进行的实验表明,基于邻接树的复杂网络查找方法在图匹配的性能等方面超过了其他同类的索引方法。(4)基于情感分析的复杂网络传播动力学模型研究针对复杂网络中信息传播的预测问题,提出了基于情感分析的“传播者—无知者—免疫者”模型,即ESIS模型。采用情感分析方法,对复杂网络中的信息流进行细粒度的情感分类。通过计算复杂网络中不同的边权重值,赋予每种情感的不同转发强度。采用平均场公式,分别计算每种情感信息传播的临界值,以及免疫者用户的最终大小。通过实验模拟并预测信息传播的过程,验证ESIS模型的有效性。实验结果表明,含有“高兴”情感的信息传播范围是最广的,而含有“愤怒”情感的信息所占比例最低。