论文部分内容阅读
在现代的网络中,一个乐于社交的人往往会拥有许多账户在不同的社交网络中,以享受不同社交网站提供的不同服务。当一个人加入一个社交网络后,他会填写个人资料并添加许多好友来享受更多的社交互动。而他的朋友也会在在其他的网站上做出相同的行为。由于没有一个全局ID来唯一标识一个人在所有的社交网络中,识别同一个人在不同社交网络中的身份来寻找你的好友在另一个社交网络中变得非常困难。一旦解决该问题,对检测垃圾邮件发送者,合并通讯录,广告推荐都有着重要的意义。用户身份识别指的是识别同一个现实中的人在不同社交网络中的多个虚拟账户。大多数现存的方法主要对用户属性进行字符串匹配,他们只是使用用户个人资料属性信息。但是这些信息或者因为用户保护自己而伪装起来,或者因为网站的缘故而将资料设为私密,我们经常难以获取到,但是在网络中,好友链接信息与用户的社交行为等信息确实很容易就获取得到的。在本文中,我们提出了一种新的局部的贪心算法,称为基于种子节点的传播的身份匹配,其完全结合了用户属性信息,链接信息和社交行为,并通过扩展种子节点来解决问题。在我们算法中,我们使用种子节点周围节点的信息,运用逻辑回归模型,通过和另一个网络中种子节点周围的节点作比较,对比他们的用户属性信息和周围的环境信息,不断识别新的链接,并把新的匹配账户作为加入到种子节点集合中。随着种子节点的传播,我们可以迭代地找到越来越多的链接。我们在Twitter和Facebook上进行广泛的实验来评估我们的算法,结果表明本文的算法显着提高了匹配结果,并且优于现存算法。