微博社区发现及演变分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fht5403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种新兴的社交媒体,微博以其便捷快速的交互方式与实时动态的平台特性,受到了越来越多网络用户的青睐。用户可以在该平台上自由地发布帖子,跟随其感兴趣的用户以及快速地浏览网络信息。趋势话题的出现使用户的微博生活更为丰富,微博用户通过参与感兴趣的趋势话题能够快速获取自己感兴趣的信息,包括兴趣相投的用户群组,感兴趣事件的演化规律以及最合心意的微博帖子内容等。在微博平台数据爆炸式增加、用户信息获取需求愈发强烈的时代背景下,充分利用包括趋势话题在内的微博平台信息元素,研究有效的社区发现及演变分析方法,对于更好地分析用户兴趣、缓解信息过载问题,进而为用户提供高质量的信息服务具有重要意义。   微博平台具有实时便捷的特性,用户可以在该平台上发表与自己兴趣爱好相关的帖子、追随自己感兴趣的人物以获得该用户发表或转发的自己感兴趣的内容信息,用户的发帖行为与好友关系从不同方面反映了用户的兴趣爱好,通过有机结合这两方面信息,挖掘其中的潜在关联,对用户与帖子内容进行聚类发现用户社区,有利于用户快速定位自己喜欢的社区类型,方便其浏览自身感兴趣的内容信息;同一社区内用户讨论以及关注的内容会发生变化,且不同时间点间围绕讨论的相关话题,用户社区结构之间往往存在一定的联系,诸如衍生、消失、分裂与归并等。在用户社区挖掘工作的基础上,研究基于话题展开的社区演化关系,有助于理解特定话题的产生背景,可以更全面地对社区用户行为进行分析和建模,从而为微博信息组织与用户信息服务提供更为全面的分析方法。   社区会随着时间的推移发生演变,具体表现为用户的发帖行为受到之前时段好友消息传播行为的影响,进而引发用户社区结构随时间的演变发展。在微博平台信息快速传播的背景下,考虑包括时间变化特性以及用户发帖动态行为因素在内的用户社区演变模式,有利于用户把握感兴趣事件的发展趋势。对微博社区的演变分析能帮助用户挖掘各类感兴趣事件的演变模式,社区里的微博趋势话题则能加深用户对各种事件演变模式的理解。针对微博趋势话题展开分类工作,将会为各类事件的演变模式提供更高层次的语义信息描述,从而帮助用户更好地理解社区演变规律,把握事件发展动态。由于用户发布的微博帖子长度短,语义性不强,通过微博趋势话题的内容集合功能为帖子增加语义信息,对结果进行合理归类,会是一种可靠高效的信息组织方法,并将为用户提供友好便捷的面向微博平台的信息服务。   本课题重点研究面向微博的社区发现及演变分析关键技术。课题旨在利用信息检索、数据挖掘与机器学习等技术,结合微博的自身特点,通过对微博社区发现及演变分析等关键技术的研究,对微博上的丰富网络信息进行分析与有效整理,实现为用户提供可靠信息服务的目的。具体而言,本文以微博平台为应用背景,拟从用户社区发现、用户社区演变及微博趋势话题分类这三个不同的用户信息服务角度展开研究,主要内容包括如下几个方面:   1)提出了一种基于概率矩阵分解的社区发现模型,用于发现微博平台上的用户社区,以帮助用户快速定位自己感兴趣的社区人群与帖子信息,从而为他们提供可靠的信息服务。该模型通过共享用户特征空间有效地关联了用户链接关系与用户发帖内容。共享用户特征空间保证了上述资源的同步分解,能有效地减少发现的社区结构误差,使社区发现的结果意义更为丰富,解释性更强。基于该社区结构,本文拓展了社区发现的应用,利用微博社区中意见领袖的观点引领作用,提出了一种基于社区相似度排序的社区推荐模型,向目标用户社区推荐了相关性强且较有价值的用户社区。   2)提出了一个社区演化模型,用于分析不同时段间用户社区的主题演化关系,帮助用户快速把握感兴趣主题结构的演变规律,并揭示用户群体兴趣随时间演进的漂移变化。该方法包括信息传播特征识别、社区演化结构生成及主题演变模式挖掘三个主要步骤。在新浪微博数据集上的实验分析表明,该方法挖掘出的主题演变模式能帮助用户及时更新自己的关注热点,跟踪事件的发展变化规律,为微博用户的兴趣信息组织与展现提供更为全面的分析策略。   3)研究面向微博趋势话题的信息分类问题,从特征及模型两个方面入手,为微博趋势话题添加语义类标签,方便用户快速获取感兴趣的微博帖子内容。首先,针对微博帖子长度过短,语义信息不足的弱点,在特征提取过程中,引入了百度百科等外在知识库,通过知识库的有效关联,提升了微博信息的特征质量,较好地扩展了文本的语义信息;其次,在分类过程中,实现了一种基于贝叶斯推断图模型的文本分类算法框架,该模型能发现特征间的潜在关联,并且模型训练时间短,鲁棒性好,分类效果优于传统的分类模型。通过上述方法得到的微博帖子信息分类结果,会为各类事件的演变模式提供更高层次的语义信息描述,从而帮助用户更好地理解社区演变规律,把握事件发展动态。
其他文献
该文把专家系统技术、模糊集合、不确定理论与控制理论和方法结合,设计并实现了一个新型的用于过程控制的专家控制系统外壳ECSS.ECSS采用了黑板模型,其知识库能够分成多个知
乒乓球机器人系统涉及视觉测量、模式识别、物理建模和学习系统等,近年来得到了许多研究人员的关注。本文围绕乒乓球机器人系统中乒乓球的轨迹预测、击打点的选择以及任意来球
考虑到工业生产过程的可靠性和安全性,工业上使用的仪表和电子类产品已不仅仅局限于对产品功能实现的要求。仪表的可靠性和安全性越来越成为仪表是否具有国际竞争力的极为重要的指标。在国外,尤其是欧美等国家,他们对于工业使用的仪表和电子产品建立了很多高要求的工业标准。这些标准保证了工业使用仪表的可靠性和安全性。遵循这一系列标准和理论设计出来的表在可靠性和安全性方面确实表现出了较大的优势,使得众多厂商受益。而反
两轮自平衡机器人是轮式移动机器人中的重要成员,具有体积小、重量轻、运动灵活等优点,具有很高的实用价值。自平衡机器人系统具有非线性、多变量、强耦合的特点,因此也具有很高
时滞现象在自然界中是广泛存在的。它往往会导致系统性能变差或恶化,同时它也是引起系统不稳定的主要因素。对时滞系统的研究一直是一个热点问题,引起众多学者的普遍关注。对于
社会化媒体(Social Media),是一种给予用户极大参与空间的新型在线媒体。它能极大的改变并丰富人们的上网及生活方式,因此关于社会化媒体数据的分析和挖掘是当今的一大研究热点
定位正在成为我们日常生活中的一个非常重要的应用,人们越来越多的体会到基于定位的服务给生活带来的便利。无线传感器网络可以很方便的得到位置信息,更有助于提高很多应用系统
该文就神经网络的基本结构和算法的C语言实现进行了探讨,构建了一个神经网络实现的框架,形成了一个可以使用的神经网络仿真软件NNES,并为其今后扩展和改进打下了良好的基础.N
随着自动控制控制理论和计算机技术的快速发展,移动机器人技术迅速发展,在工业、国防、宇宙空间、海洋开发、医疗救助等领域得到了广泛应用。履带式机器人是移动机器人中的一种
伴随着社交媒体的快速发展,信息过载已经成为社交媒体中的重要问题。面对每天大量更新的信息流,用户往往难以快速的发现令自己感兴趣的内容。因此,如何更好的分析和理解用户,帮助