基于主题和结构的微博社区挖掘方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:grasskeeper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着互联网的兴盛,在线社交网络(Online social network, OSN)蓬勃发展。其中,微博(Microblog)作为一种全新的社会化媒体工具和网络交流工具,以其“短、平、快”的特点迅速捕获大众的青睐。目前我国微博用户已经超过3亿人,将近占我国互联网用户的一半,全球排名第一。面对如此庞大的用户群,无论是网络管理者还是使用者都面临着许多全新的机遇和挑战。用户如何在茫茫人海中找到与自己兴趣相投的人群来互动;企业是否可以从产生的海量数据中获取有意义的信息帮助它市场营销;管理者如何治理这个庞大的网络等等。社区挖掘可以帮助解决这些问题。“社区”就是一群相似用户的集合。有关它的研究由来已久,但多是基于复杂网络的理论研究。虽然社交网络本质上也是一种复杂网络,但它拥有自己的特质。社交网络是由一个个鲜活的人以及他们之间的链接关系组成的,不同于传统的复杂网络只考虑网络链接结构,这种新兴网络的节点内容,即用户的特性同样不可忽视,它促使着社区的形成,同时社区也影响着其中的用户。因此,本文就旨在于寻找一种综合考虑节点内容和网络结构的划分方法,以获得内容相似,结构紧密的社区。本文首先对社交网络进行研究,分析用户行为特征,从两个方面对用户进行分析——用户影响力分析和用户主题分析。前者可以获取网络中的“核心用户”,即对于其它用户有着很强号召力的用户。这不但帮助我们认识网络,也是后面挖掘工作的基础。同时,本文认为一个用户的特性会体现在其言行之中,所以后者从用户发表的微博中提取出用户主题。在此基础之上,本文建立聚类模型,以“核心用户”为初始聚类节点,这样不但能提高效率,而且也避免了结果的局部最优。然后进行以用户主题相似性为基础的聚类工作,这其中同时考虑了用户在网络路径中的距离,以保证社区中的用户内容上兴趣相投,结构上是联系紧密。随后,对初步结果进行社区合并,减少小社区的数量,获得更有应用价值的社区结构。最后,将本文提出的方法应用在真实的数据集上。实验证明,本文提出的方法不但能够发现潜在社区,而且还能获知社区主题,解决了传统基于链接结构社区发现方法缺乏语义性解释的问题。另外,本文最后对研究成果进行了总结,展望了下一步研究工作。
其他文献
艾长青同志(原名艾石安,又名艾柏)是:四川省奉节县人,1915年生,1938年参加革命,同年加入中国共产党。在抗日、解放战争时期,他历任八路军三五九旅政治部干事,绥德抗战报、晋
20世纪末期以来,包括欧洲,美洲,亚洲的许多国家的网络购物都发展迅速。网络的使用,使我们的世界变的越来越小。网络使用的不断增加,更加增强了电子商务的重要性,网络购物也逐渐得到
棉花有性杂交是指某一个种或品种植株的花粉,落到另一个种或品种植株的柱头上,两性细胞结合进行授精,产生杂种。杂交的方法:进行杂交可分为去雄和授粉两个步骤。 Sexual co
翻开1959年的山西日报,最吸引读者的是“红勤巧竞赛运动”的报道:回顾1959年我们的工作,最发人深思的也是“红勤巧竞赛运动”的报道。这一报道像红线一佯贯穿着全年整个农村
美国报纸的商业性是众所周知的。只要能吸引更多的读者,只要能获得更多的利润,报纸老板就争着去干。现在,一种随报附送的“星期副刊”成为一种时髦。这种“星期副刊”都是彩
初中物理新课程标准中提出“义务教育阶段的物理课程要让学生学习初步的物理知识与技能,经历基本的科学探究过程。”科学探究的重要环节之一,必须使学生能提出探究的问题。可是
我们的新闻摄影工作是无产阶级新闻事业的一部分。它是无产阶级反对资本主义、修正主义,进行社会主义革命和社会主义建设的锐利思想武器之一。今天我国新闻摄影工作的任务:
近年来,全球突发事件频发,突发事件应对与管理日益引起社会各界的关注。与此同时,随着我国城市化进程加快,城市规模以及建筑物密集程度迅速增加,面对如此集中的人口密度,城市大型公
正确宣傳贯澈党的方針政策,为澈底实現党的方針政策而斗爭,是党的新聞工作的党性的标志。为此,我們的报刊就必須深入、全面、通俗、正确地闡明党的政策,善于把党的政策同当
从国内教育学界来看,自从丁钢教授于1990年代末期开拓“叙事研究”以来,[1]这一方法已被运用于教师研究,其叙述内容大致围绕两类主题展开:一是通过教师生活经历的叙事,揭示教