论文部分内容阅读
在社会化标注中,允许用户自由地使用标签对信息资源进行标注,极大地激发了大众参与的积极性与主动性。这种开放、灵活、有趣的信息分类组织方式反映了用户的主观思想,应当挖掘社会化标注的使用模式与规律以及努力探索它的最佳使用。现有研究着重于把标签作为单独的个体角度研究标签的使用模式和规律,较少关注于标签主题角度。但用户使用的标签久而久之形成了不同的标注主题,揭示用户的差异性,这对于基于用户的兴趣偏好提供个性化服务而言具有重要意义。因此有必要从标签主题角度出发探讨社会化标注的模式与规律。为此,结合国家自然科学基金项目“泛在计算环境中社会化驱动的情境感知个性化信息服务研究”(项目编号:71471165)开展用户标签的主题鲜明性研究。本文的主要工作和贡献如下:(1)社会化标签主题建模。将社会化标注中用户持久的标注行为产生的用户标签集与文档主题模型中文档词汇类比,结合LDA理论基础构建社会化标签主题模型,获取用户标签主题概率分布。(2)用户活跃度刻画与用户社区发现。根据超网络中超度的概念定义了用户的活跃度,刻画用户标注的活跃程度;同时依据复杂网络的理论知识,分别以用户朋友关系和标注关系构建了以用户为节点的复杂网络,并使用了Wakita-Tsurumi社区发现算法进行网络划分,获取用户社区。(3)度量指标的构建。借鉴信息论中信息熵的概念,构建了度量用户标签主题鲜明性的量化指标,包括用户主题熵、用户平均主题熵及用户社区主题熵。(4)实证分析。选取来自Last.fm和MovieLens社会化标注平台的用户数据,从单用户、用户活跃度以及用户社区3个角度出发,对用户标签的主题鲜明性展开实证分析。实证结果表明:(1)主题极鲜明的用户较少,大部分用户主题较模糊;(2)随着用户标注资源数量的增加,标签主题的鲜明性越强;(3)用户社区中成员用户对少数主题的认识程度较相似,对大部分主题的认识各不相同。研究发现揭示了用户标注的标签主题模式和规律,有益于社会化标注在网络资源的组织和发现。