论文部分内容阅读
随着互联网的迅速普及,日益增长的网络信息充斥着我们的生活。传统的单一性网络结构已经不能够表达网络中丰富的信息,异质信息网络的研究开始越来越受到研究者们的关注。定性和定量地对异质信息网络进行研究已经成为复杂网络研究领域的一项有重大意义的课题,其中,链路预测是社交网络挖掘研究的主要问题之一。由于网络的复杂性、数据的多样性,根据异质网络结构和网络中已有的信息,针对网络中不同类型的数据进行链路预测的问题也变得更加复杂。面对异质信息网络中庞大的信息量,现有的链路预测技术对原始数据信息的提取与筛选并不成熟。除此以外,已有的异质信息网络中链路预测技术主要考虑网络的结构,没有充分考虑网络中节点之间的相互关系,或者考虑的过于简单,从而影响了链路预测的精确度。针对异质信息网络中链路预测方法存在的问题,本文主要包括以下研究内容:(1)保留原异质网络中的语义信息,提取异质网络中待预测的两种类型数据对象以及它们之间的链接关系。其中,两种类型的数据对象作为网络中的节点对象,两种类型对象之间的链接数量作为网络中两种类型对象之间的链接关系,重新构造新的异质信息网络。在简化网络的同时,不丢失原网络中的语义信息。(2)采用两种类型对象互为特征,对象之间的链接关系数量作为特征值的方法,两种类型的对象分别用向量表示,计算异质信息网络中节点之间的相关性。其中,同种类型节点对采用节点之间的余弦相似度作为节点之间的相关性,不同种类型节点对采用两种类型对象之间的链接数量与第二种对象所有的链接数量之和的比值作为节点之间的相关性,得到节点相关性矩阵模型。通过构造节点相关性矩阵,充分挖掘了异质信息网络中的节点之间的相关性信息。(3)在选取元路径的过程中,充分利用了节点相关性矩阵中的节点之间的相互关系,并且提出了两个规则,使得链路预测中元路径包含了“A-A-B”,“A-B-B”等类型的子路径,充分挖掘了异质信息网络中的元路径类型。通过提取网络中所有有效的路径,提高了异质信息网络中基于元路径链路预测的准确度。(4)本文提出了一种基于元路径的链路预测方法BRLinks。以节点相关性矩阵为网络结构模型,首先提取待预测两个节点之间的所有实例路径作为元路径集合;然后计算每种类型元路径上节点之间连接的概率;接下来利用监督的学习方法训练每种类型元路径的权重;最后集成两个节点之间不同元路径建立连接的加权和,对两个节点进行链路预测。并且在文献信息网络DBLP数据集上验证了算法的有效性。实验结果表明,BRLinks方法的F-Measure值明显高于基于共同邻居节点和重启随机游走的链路预测方法。BRLinks方法的提出对异质信息网络中链路预测的研究具有借鉴意义。