论文部分内容阅读
随着计算机科学和网络技术的发展,社会网络分析在数据挖掘领域逐渐成为主流方向。当前的社会网络分析主要基于同质信息网络,即关系网络中结点或边具有相同的类型。然而,随着在线社交媒体、信息物理系统的大量出现,对象相互关联形成的复杂网络很难用同质信息网络描述,而是需要采用包含不同类型结点和边的异质信息网络建模。相比同质信息网络,异质信息网络具有更加复杂的网络结构和更加丰富的语义信息,在异质网络中进行社会网络分析可以发现更加精细准确的隐含知识。相似性度量,即评价两个对象的相关性,是聚类分析和其他很多数据挖掘任务的基础,是社会网络分析中必不可少的基本方法。本文以异质信息网络中的相似性度量为主要研究对象,通过对相似性度量方法及其相关任务的研究,深入分析了异质信息网络的异质对象处理和关系语义挖掘技术。本文首先通过分析现有的相似性度量算法的优势与不足,提出了一种基于元路径的新型相似性度量算法——AvgSim。该算法可以度量异质信息网络中任意结点对之间的相似度,同时度量具有对称性。通过与其它度量算法在真实数据集上的实验结果的比较,验证了AvgSim算法的有效性。其次,本文提出了AvgSim算法在海量数据下的快速计算方法。该方法应用动态规划策略以及并行分块矩阵乘法,实现了AvgSim在Hadoop平台上的并行化,并在大规模数据集上验证了并行AvgSim算法的高效性。最后,本文还提出了元路径的自动发现方法。该方法可以根据给定的目标结点对,在异质网络中自动地发现链接该结点对的元路径并度量其重要程度。在元路径自动发现方法的基础上进一步应用于知识图谱中的关系预测,并验证了方法的有效性。