论文部分内容阅读
如今,社交网络在人们的日常生活中扮演着越来越重要的角色,使人与人间的连接更加紧密。网络用户与日俱增,而且每个用户每天发布的信息也越来越多,也就是说社交网络中每天都会新增海量的用户产生内容。然而由于社交网络开放和信息快速传播的特点,用户产生内容中往往充斥着许多虚假信息,内容的真实性难以保证,对内容真实性的判断难度也大大增加。如果放任这些大量的不实信息广泛传播,非但不利于用户产生内容的分析利用,甚至会导致极大社会危害。因此,用户产生内容的可信度评价问题受到了各领域专家学者的广泛关注。由于微博平台和电商平台中用户产生内容的真实性更为重要,因此这些信息也更值得研究。本文以微博平台和电商平台为应用场景,对用户产生内容可信度的评价方法进行了研究,主要包括以下四部分。第一,为了使社交网络中用户产生内容的主题分布更加具有针对性,本文提出了基于共同体感知的主题模型(CA-LDA)。整个社交网络中的用户产生内容可以根据其产生的目的和背景划分为不同的共同体,例如可以根据用户对商品打分来划分共同体,大多给出五星好评的商品评论都是以正面评价为主,都一定程度地体现了对商品的好感,而一星评价则相反。打分相同的用户产生内容可以看作为一个共同体。因此,本文将传统LDA主题模型应用到不同的共同体上,提出了基于共同体感知的主题模型。该模型得出的主题-词分布能很好地体现出不同共同体之间的主题分布差异,能较好地诠释不同共同体中用户产生内容的内在语义特征。第二,为了体现用户产生内容的可信度与其价值之间的关系,本文提出了基于CA-LDA的内容价值综合量化计算方法,对用户产生内容的价值进行量化评价和分析。在CA-LDA主题模型训练结果的基础上,本文结合主题熵、共同体主题偏向性和用户产生内容的情感评分,给出了对内容价值的综合量化方法。该方法能直观地评价出内容本身的质量情况,为用户产生内容的可信度评价方法奠定基础。第三,为了更加有效地区分出用户产生内容在不同共同体中可信度的差异性,本文提出了基于内容价值的层次可信网络传播模型(HCNC),该模型能有效评价社交场景下的用户产生内容的可信度。该模型在CA-LDA主题模型结构的基础上,构建成层次网络结构,包含文档层、主题层和共同体层;在CA-LDA主题模型训练结果和内容价值量化计算结果的基础上,结合应用场景中的独有社交属性,如转发、点赞等,为层内和层间的节点建立连接关系,并给出了相应的连接权重和节点初始值的计算方法;再利用网络图优化的方法来模拟HCNC的可信度传播过程,通过梯度下降的计算方法,最终迭代出每个层次节点的可信度评价值。第四,最后本文针对两大主流的社交网络平台,即亚马逊电商平台和新浪微博平台,对平台上的用户产生内容的可信度评价结果进行分析和验证。实验首先收集了商品评论和有关新闻事件的博文数据,建立评价数据集,通过与现有的可信度评价方法进行比较。在排序实验中,实验结果的NDGC指标得分均显著大于对比实验组;而在分类实验中,在实验结果的准确度上也有2%的提升。本文的研究有助于社交网络平台的信息过滤和增加决策的可信度;另外本文提出的HCNC方法还在用户产生内容可信度评价的无监督方法上有一定的贡献。