论文部分内容阅读
随着web2.0互联网产品模式的兴起,具有交互、开放、分享等特性的社交产品得到了普及。微博作为一个集创造、传播及分享信息于一体的平台,成为当代人们发表言论,分享信息,获取资源必不可少的工具。然而,随着微博用户数量的不断增加,用户的兴趣和行为也变得更加碎片化,为了使微博精准的了解用户行为模式、聚焦服务对象,本文通过使用新浪微博API获取用户在微博社交平台上产生的一系列数据,从三个维度上构建用户画像模型,包括用户兴趣维度、用户社交维度和用户行为维度,具体如下: 1.用户兴趣维度。用户兴趣关键词的提取分为三步:用户微博兴趣领域的划分、内容主题词的抽取以及基于社交关系的兴趣关键词提取。针对用户微博兴趣领域的划分提出使用FastText模型按粗细粒度进行两级领域的划分,并根据投票规则确定用户兴趣领域。在内容主题词的抽取方面提出一种改进的TextRank算法进行关键词的抽取。针对基于社交关系的兴趣关键词提取提出改进的标签传播算法与LDA模型相融合的方法确定兴趣标签及权值,同时为标签设置时间衰减函数,使标签权值随时间推移而发生改变。实验证明基于以上改进的算法提取兴趣标签具有更好的效果。 2.用户社交维度。在社交网络中为了发掘持续推送优质博文的专家账号,根据从用户原创微博内容提取的各领域兴趣关键词作为标签词,在每个领域当中计算用户影响力,并基于用户关注-粉丝关系构建社交图谱,使用改进PageRank算法迭代计算用户能力权值,发掘权值最大者作为该领域的专家账号。实验结果表明相较于改进之前,该算法具有更好的专家账号预测能力。 3.用户行为维度。每个新用户从注册到成熟都是一个积累的过程,为了了解用户行为模式以便于账号培养,将用户在此过程的一系列行为进行时间切片,统计各时间片上的行为数据以及用户的成长指标数据,即粉丝数。基于这些统计值的变化,利用相关性分析的方法得出与用户成长最为相关的行为因素。经过人工分析与验证,所取得的结果较为合理。