论文部分内容阅读
信息网络是指使用互联网应用的个体与个体之间的交互行为产生的大量的,相互作用的网络[1]。Newman在他的论文中第一次将这种在节点上存有信息的网络归结为信息网络。信息网络中的用户一方面期待信息网络为其提供方便的服务,包括推荐内容,好友等。另一方面却出于保护隐私等考虑,不愿意填写个人信息,不愿公开个人社交关系。所以,为了解决这一矛盾,链接预测与属性推断成为信息网络中数据挖掘的两项重要任务。链接预测问题是预测信息网络中的指定链接是否会产生,或寻回丢失的链接信息的问题。属性推断问题是指推断节点或者边的缺失属性,或者判断节点或者边的属性值真伪的问题。目前大部分属性推断的工作基于信息网络结构或节点的内容信息建模,并且通常假设拥有足够训练模型的标注数据。然而,在实际应用中,标注数据的的时问与人力成本巨大,因此有监督的机器学习模型虽然往往取得好的效果,但是却难以在实际中应用。此外,大部分现有的研究工作将链接预测与属性推断视为两个不同的问题进行分析研究,然而,根据同质性理论(homophily),这两个问题无论是在应用场景还是问题的本质之问均存在强烈关联。针对以上问题,本论文首先提出一个两阶段模型,解决如何在缺少标注数据的情况下,推断信息网络中的缺失属性。模型的第一阶段,先利用社团探测算法,扩展标注数据。第二阶段,利用扩展后的标注数据训练有监督的随机游走模型,基于网络结构与节点内容的相似性,推断用户缺失属性。其次,本文提出利用信息网络中的社团信息,同时解决属性推断与链接预测问题的方法。该方法利用SAN网络(social attribute network)以及社团信息,结合网络结构和用户属性,同时解决属性推断与链接预测问题。根据同质性理论,用户的属性信息与链接信息之间存在相互补充与相互促进的关系。因此,本文设计了一个迭代框架,使两个问题的解决过程中实现信息的不断补充与促进,最终实现二者效果的相互提高。最后,两个真实数据集上的实验结果表明,本文提出的算法较之其他现有算法,具有更好的效果。根据实验结果可知,社团发现算法不仅可以有效解决标注数据不足的问题,而且可以使属性推断与链接预测融合到一个统一的解决框架内。而有监督的随机游走和SAN网络上的随机游走可以有效衡量信息网络中节点的内容及结构相似性,充分利用结构及内容两方面信息,解决属性推断与链接预测问题。