论文部分内容阅读
近几年,随着互联网的兴盛,在线社交网络(Online social network, OSN)蓬勃发展。其中,微博(Microblog)作为一种全新的社会化媒体工具和网络交流工具,以其“短、平、快”的特点迅速捕获大众的青睐。目前我国微博用户已经超过3亿人,将近占我国互联网用户的一半,全球排名第一。面对如此庞大的用户群,无论是网络管理者还是使用者都面临着许多全新的机遇和挑战。用户如何在茫茫人海中找到与自己兴趣相投的人群来互动;企业是否可以从产生的海量数据中获取有意义的信息帮助它市场营销;管理者如何治理这个庞大的网络等等。社区挖掘可以帮助解决这些问题。“社区”就是一群相似用户的集合。有关它的研究由来已久,但多是基于复杂网络的理论研究。虽然社交网络本质上也是一种复杂网络,但它拥有自己的特质。社交网络是由一个个鲜活的人以及他们之间的链接关系组成的,不同于传统的复杂网络只考虑网络链接结构,这种新兴网络的节点内容,即用户的特性同样不可忽视,它促使着社区的形成,同时社区也影响着其中的用户。因此,本文就旨在于寻找一种综合考虑节点内容和网络结构的划分方法,以获得内容相似,结构紧密的社区。本文首先对社交网络进行研究,分析用户行为特征,从两个方面对用户进行分析——用户影响力分析和用户主题分析。前者可以获取网络中的“核心用户”,即对于其它用户有着很强号召力的用户。这不但帮助我们认识网络,也是后面挖掘工作的基础。同时,本文认为一个用户的特性会体现在其言行之中,所以后者从用户发表的微博中提取出用户主题。在此基础之上,本文建立聚类模型,以“核心用户”为初始聚类节点,这样不但能提高效率,而且也避免了结果的局部最优。然后进行以用户主题相似性为基础的聚类工作,这其中同时考虑了用户在网络路径中的距离,以保证社区中的用户内容上兴趣相投,结构上是联系紧密。随后,对初步结果进行社区合并,减少小社区的数量,获得更有应用价值的社区结构。最后,将本文提出的方法应用在真实的数据集上。实验证明,本文提出的方法不但能够发现潜在社区,而且还能获知社区主题,解决了传统基于链接结构社区发现方法缺乏语义性解释的问题。另外,本文最后对研究成果进行了总结,展望了下一步研究工作。