论文部分内容阅读
近些年来,随着Facebook、Twitter的兴起,社交网络对用户的影响力越来越大,吸引越来越多的学者从事社交网络、用户兴趣挖掘等研究。用户标签用于描述用户身份属性、兴趣属性,对于检索用户、用户推荐、理解用户行为、发现用户兴趣和建立用户模型都有很大的帮助。本文从微博用户社交网络关系出发,借助于文本分析技术,生成可以描述微博用户身份属性和兴趣属性的标签,来进行社交网络的用户标签推荐研究。本文的研究主要包括3方面:用户候选标签的提取,候选标签的个性化排序,用户标签推荐多样性。针对用户候选标签提取的问题,利用用户彼此关注是因为他们具有某种共同的兴趣属性或者身份属性的事实,使用用户关注好友的自标签作为初始用户标签集,从标签相对于关注好友网络重要性和对用户兴趣主题的覆盖程度两个角度,展开候选标签提取方法设计。针对标签候选提取时,忽略了不同关注好友对用户影响力不同的问题,提出了基于用户浏览信息的个性化候选标签排序方法。假设用户浏览的数据能够反映其关注社区的兴趣,通过对用户浏览信息建立用户语义模型,与标签扩展语义计算获得标签与用户的相关性,结合标签相对于关注好友网络的重要性,对标签进行个性化排序。针对标签候选个性化排序容易造成描述用户重要兴趣主题标签冗余,无法全面描述用户多方面兴趣的问题,提出标签推荐多样性方法。基于利用已选用户标签中与候选标签相关的标签对候选标签进行惩罚的想法,使用最大间隔相关性算法与聚类算法相结合的方法为用户标签推荐多样性标签。总之,针对社会网络用户的标签推荐问题,本文从标签相对于好友关注网络重要性提取候选标签,能够较好挑选出可能描述用户标签,去除标签候选集噪声;通过用户浏览微博建立用户语义模型,一定程度上实现了用户关注的好友的差异化;利用标签与用户的相关性,能够进一步去除标签候选噪声,获得能够更准确描述用户的标签;通过引入多样性,改善了标签列表语义冗余的情况,使得标签推荐列表能够更加全面的描述用户,最终得到用户相关且概括全面的用户标签列表。