论文部分内容阅读
多异构社交网络用户匹配就是根据不同社会网络及其网络用户发布的信息,将用户关联起来,发现同一用户,在兴趣推荐、社区发现、特殊人员监控领域有着重要价值,并可以使社交网络的研究更进一步。本文面向中国社交网络的两个典型代表-新浪微博和百度贴吧,开展社交网络用户的关联研究。具体的研究内容包括如下三个方面:(1)根据微博以及贴吧的特点,构建多异构社交网络关联研究所需的属性模型,包括基于用户背景属性、基于用户用户名属性、基于用户兴趣属性以及基于用户网络结构属性。通过发现可以用来计算相似度的属性,更好的计算不同社交网络中用户的相似性。(2)其次,针对不同的用户属性,本文构建基于属性特征的属性关联方法。基于背景属性的方法中,本文选择性别、年龄、所在地、教育背景四个属性来计算相似性。基于用户名属性的方法中,本文选择用户名长度特征、用户名特殊字符特征、用户名数字特征、用户名字符组合模式特征、用户名更改模式特征、用户名特殊性特征、用户名拼音特征七个特征来计算相似性。基于用户兴趣属性的方法中,本文提出了APW(All position weighted similarity)方法来计算用户发表内容兴趣相似度,相比于传统的文本相似计算方法,可以有效的计算用户兴趣相似度。基于用户网络结构的方法中,本文使用LDA(Latent Dirichlet Allocation)算法计算用户关注粉丝及贴吧的兴趣相似性,可以有效的对兴趣进行分类,通过计算用户所属兴趣分类的相似性来计算用户网络结构相似性。(3)最后,综合运用用户的多种属性,为了计算出更准确的关联结果,本文使用了层次分析法以及主成分分析法两种综合属性相似度权重计算方法。通过实验比较发现更好的更准确的权重分配。本文针对多异构社交网络用户关联研究,设计了一种基于多属性的用户相似性计算模型,实现了对两个社交网络上的用户进行关联分析的功能,通过用户关联准确率实验,针对采集的新浪微博与百度贴吧用户数据所构建的数据集,改善并提高了多异构社交网络用户关联准确率。