论文部分内容阅读
随着互联网技术的不断发展,社会网络逐渐渗入到人们生活的方方面面。人们进行的各种社交活动使得社会网络中每天都会产生海量的信息在用户之间传播与扩散,并且这些海量的信息中包含着各种各样的主题,在不同的主题下,都存在着对其他用户影响极大的用户,通过这些影响极大的用户进行信息传播,可以将信息最大程度的扩散开来。在此背景下,社会网络中基于主题的影响力最大化问题成为了研究热点,其目的是针对社会网络中产生的各种主题,挖掘任意特定主题下最有影响力的节点集合,然后通过所挖掘的节点集合进行信息传播,可以使得信息在整个社会网络中的传播达到最大化,即所挖掘的节点集合最有最大的影响力。本文首先对基于主题的影响力最大化研究的相关理论与技术进行了研究与介绍,并根据近年来的研究现状,分析了已有研究中存在的一些问题。然后,在此基础上借鉴已有的研究成果,对社会网络中基于主题的影响力最大化问题进行了较为深入的研究,具体的研究内容如下:(1)针对社会网络中的潜藏主题及用户节点主题分布的获取问题,提出了一种适用于社会网络短文本主题挖掘的主题模型,即用户_词对主题模型U_BTM。首先采用聚类算法对社会网络中的短文本文档进行文本聚类,且通过平方误差及轮廓系数得到合适的聚簇个数。然后将每个聚簇中的短文本整合在一个文档中组成一个长文本文档,并根据长文本文档中用户节点的主题分布对每个长文本文档中词对的产生模式进行建模,并采用吉布斯抽样方法推导出模型中的参数,得到社会网络中的主题及用户节点的主题分布。最后通过实验验证了所提模型在主题质量、主题困惑度及主题差异性方面的优越性。(2)针对特定主题下挖掘最有影响力节点集合的问题,在获取到的主题及用户节点主题分布的基础上,提出了一种基于主题的影响力最大化算法。该算法考虑到主题对影响力节点挖掘的影响,首先对社会网络中的所有节点进行筛选得到一个节点子集,然后在该节点子集上分两阶段挖掘影响力节点集合,第一阶段静态地挖掘主题权威性大的节点加入到影响力节点集合,第二阶段将所挖掘的节点作为初始传播节点并利用所提出的主题信息传播模型模拟信息传播,迭代的挖掘主题影响增量最大的节点加入到影响力节点集合。最后通过实验验证了算法的有效性。