论文部分内容阅读
随着Web2.0的发展,Twitter、FaceBook等基于社区的社会网络服务得到了广泛的普及,网络用户的数量也取得了快速的增长。与此同时,网络的链接关系也渐趋复杂化,链接挖掘成为了一个研究热点。尤其是链接挖掘的一个重要分支——链接预测的重要性也日益凸显。在网络社区中用户拓展社交圈、寻找兴趣话题等多种活动都需要链接预测技术的支持。但现有的社会网络链接预测方法存在着很多问题,例如对节点属性信息和网络拓扑信息难以综合考虑,预测结果的准确度也亟待提高。针对这一问题,本文提出了基于用户属性特征和基于网络拓扑特征的两种社会网络链接预测方法,并通过监督学习框架,把这两种方法组成联合预测模型,力图达到综合考虑社会网络的多重信息,进而提高链接预测准确度的目的。本文的具体工作主要包括以下几方面:首先,本文对现有的社会网络链接预测方法进行了分析,总结了各方法的优缺点,找出了现存链接预测模型的局限性。其次,针对现有算法缺乏对用户属性信息语义关系的挖掘的问题,提出了基于用户属性特征的社会网络链接预测方法。该方法引入了LDA模型来对用户兴趣信息进行建模,提取用户兴趣特征,并将该特征输入分类器,通过训练分类器,得到链接预测结果。然后,分析了网络拓扑信息对链接预测准确度的贡献,提出了基于网络拓扑特征的社会网络链接预测方法。该方法首次引入了物理网络中的PropFlow算法来提取社会网络拓扑信息特征,并将该特征输入分类器,通过训练分类器,得到链接预测的准确度。另外,还在上述两种社会网络链接预测方法基础上提出了一种综合的社会网络联合预测方法。该方法通过构造分类器,利用监督学习框架,将上述两种方法提取的用户兴趣主题特征和网络拓扑结构特征同时输入分类器,构造联合预测模型。将链接预测问题转化为分类问题,通过训练分类器,进而得到链接预测的准确度。最后,设计和实现了实验,验证了上述提出方法的正确性和可行性。实验中采用了由北京理工大学网络搜索挖掘与安全实验室发布的NLPIR微博语料库作为实验数据。将本文所提出的方法与CN方法、AA系数法等其它计算方法进行了实验对比分析和讨论,并且使用了AUC值作为算法的评估标准。实验结果证明了本文所提出的模型能够有效的提升链接预测的准确率,具有可行性。