大规模社会信息网络社区发现关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gaoxiaoyu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会信息网络是基于交互式社会媒体平台建立起来的一种新型网络,其以虚拟化互动的交流模式极大地推动了用户参与网络的广度与深度,是人类社会活动在网络空间的虚拟映射。研究和分析社会信息网络可以间接地认识和学习人们在现实社会中的情感倾向和行为特点,为社会学、经济学、网络应用、隐私保护与安全等相关学科领域的应用研究提供有价值理论依据和技术支撑。但随着用户数目的不断增长和网络结构的不断复杂化,单纯地从节点入手或者宏观整体分析社会信息网络,其难度均非常大。因此,研究者们选择从一种中观尺度“社区”来度量网络,降低社会信息网络分析的复杂性。  社区发现是非监督学习领域的一个热点问题。尽管社区发现算法在过去的十多年发展很快,但较高的计算复杂度使得已有算法难以扩展分析纷繁芜杂的社会信息网络,特别是随着社会媒体应用技术飞速发展而不断膨胀的大规模社会信息网络。如何快速且有效的挖掘大规模社会信息网络社区是一项极具挑战的任务。针对社会信息网络数据结构的不同特点,本文沿着算法适用性呈递进式逐渐增强的关系主线,依次研究和设计了三种不同的高效社区发现算法,其分别适用于富含三角形拓扑结构、包含一定三角形拓扑结构以及无三角形拓扑结构要求的不同社会信息网络分析。具体而言,本文的主要贡献和创新点如下:  1.提出了一种基于三角形拓扑结构的多层社区发现算法  大规模社会信息网络社区结构的分析研究中,多层社区发现是一类可扩展性极好的方法,其通过一种多层模式先将网络规模降阶,再进行社区挖掘并最终以间接地方式得到网络的社区发现结果。但已有的多层社区发现算法,或因社区发现精度较低,或因计算复杂度较高,均难以进一步扩展分析更大规模社会信息网络。针对上述问题,本文提出了一种基于三角形拓扑结构的多层社区发现算法(TMLCD)。通过将具有强社区效应的三角形进行聚合粗化,TMLCD不仅保持了粗化网络与原大规模社会信息网络的基本社区结构一致性,提高了社区发现精度,而且以较高的粗化缩减比率和相对于局部聚集子团计算简单的三角形遍历过程,加快了社区发现的速度。另外,流算法的引入,降低了多层社区发现对系统内存的占用。实验结果表明,TMLCD的性能明显优于目前较好水平的多层社区发现算法,解决了已有算法中存在的诸多问题,实现了预期高精度、低损耗的目标。但是,TMLCD仅适用于富含三角形拓扑结构的社会信息网络研究。  2.提出了一种基于预粗化抽样NystrOm方法的谱分析算法  为进一步挖掘社会信息网络社区,而不局限于富含三角形的拓扑结构,我们研究谱分析算法。谱分析算法是一种能够发现全局最优解、且不受线性可分条件限制的社区发现算法,但特征矩阵分解计算复杂度较高,限制了其可扩展分析能力。大量近似算法中,基于Nystr(O)m方法的谱分析精度最高,但已有的算法须基于节点多维属性先建立相似度矩阵再进行计算,因此难以直接从链接结构的角度分析大规模社会信息网络。针对上述问题,本文提出了一种基于预粗化抽样Nystrom方法的谱分析算法(NSCD)。通过预粗化处理,NSCD先将原大规模社会信息网络转化成一个加权网络,并直接构建权重矩阵用于NystrOm方法的抽样,提高了社区发现的精度,且省略了相似度矩阵计算与NystrOm方法一同加快了谱分析算法社区发现的速度。实验结果表明,NSCD完全适用于直接分析基于链接结构的大规模社会信息网络,且在计算精度和速度方面均优于其他近似谱分析算法。但是,NSCD研究的社会信息网络仍需包含一定的三角形拓扑结构。  3.提出了一种基于遗传算法的多路最大间隔社区发现算法  为设计一种无三角形拓扑结构要求、具有普遍适用性的社会信息网络分析算法,我们进一步研究最大间隔社区发现算法。最大间隔社区发现是由支持向量机的基本理论拓展应用于非监督学习领域而形成的一种具有高计算精度算法。但是,由社区属性标签未知而产生的非凸极值优化问题,使得最大间隔算法的时间复杂度过高且易于陷入局部极小值。针对上述问题,本文提出了一种基于遗传算法的多路最大间隔社区发现算法(GAM3CD)。GAM3CD首先推导出了一种对偶空间下的多路最大间隔社区发现算法,并针对定义式中Kernel矩阵采用NystrOm方法进行低秩近似,极大地加快了算法的计算速度,再运用遗传算法将其固有的非凸规划问题转化为可有效求得全局最优解的凸规划问题,提升了算法的整体性能。实验结果表明,GAM3CD性能均优于已有的最大间隔社区发现算法,特别是在保持其高计算精度的前提下提升了其计算速度,使之完全适合于分析具有各种数据结构的大规模社会信息网络。
其他文献
Internet的迅速发展,给人们带来丰富信息和极大便利的同时,也随之产生了一些亟待解决的问题,构建智能化的Web站点便是其中之一。直接或间接的解决这个问题的途径之一就是将数据
随着社会经济的发展,企业之间的竞争日益激烈,竞争情报系统纷纷涌现。其中基于知识管理的竞争情报系统,结合知识处理的相关技术,如数据挖掘、人工智能、自然语言理解等等,为竞争情
随着移动终端(手机)、PDA等掌上型产品的快速发展,高性能、低成本、低功耗的嵌入式设备在军事上的应用越来越广泛,且嵌入式操作系统作为嵌入式设备的核心也已从单一功能向高
在该论文中我们提出了三种基于数据挖掘中孤立点分析方法的入侵检测算法.其基本思想是将输入空间里的数据点映射到一个特征空间中,然后根据数据点在特征空间中的位置来判断那
许多应用中都要识别用户的合法身份,传统的的方法采用密码或者IC卡等来达到这个目的。但密码和卡片容易被遗忘或者丢失,而且容易被非法用户伪造,所以传统方法已不能满足在信息化
随着校园网的逐步建设完善,各种基于网络的应用广泛的应用于校园的教学管理中.各种应用系统独立认证的弊端使校园网络使用的集中管理难以实现,因此,建立一个统一认证系统,对网络用
C4ISR系统在现代国防中具有重要的地位和作用,研究C4ISR系统的设计与开发具有重要的意义。仿真是研究C4ISR系统的一种重要手段,通过对C4ISR系统进行体系结构的分析和仿真,有助于
语义Web是当今最热门的话题之一,实现语义WEB的知识推理则是人们关注的重点。Prolog语言以其在逻辑推理和证明方面独特的功能和作用,以其基于面向对象的技术和一阶谓词的逻辑型
学位
近年来,由于经济的全球化、竞争的动态化和技术的快速更新,高度动荡环境下的项目决策具有较高的不确定性和复杂性。在这种情况下的项目投资的风险分析与决策,包括项目投资前
随着互联网的发展与普及,Web资源成为人们获取信息的重要来源,而且相当多的资源只有通过互联网才能获得(例如未发表的论文、研究报告等)。但是随着web资源的急剧增加,如何充分利用