基于最小描述长度的大规模图数据结构分析

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:westlink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现今网络高速发展的时代,网络空间数据与日俱增。这些大量的数据包含了现实生活中人们的隐私和信息。通过网络空间数据挖掘方法对这些数据进行信息提取,同时挖掘出数据所包含的隐私信息,是当前社交网络结构分析和网络空间安全研究的一个重要方面。出于理论研究和应用的需求,需要对大规模的网络数据进行压缩,同时进行拓扑结构挖掘,分析和理解其拓扑语义。本文研究了在当前安全背景下网络空间中的结构数据以及图拓扑数据的结构分析问题。重点研究了子图重叠结构挖掘、子图结构语义识别与分析和图结构挖掘的问题。本文的图分析方法主要适用于社交网络,但是也可以应用到具有幂律分布的其他网络类型中去。论文通过引入最小描述长度准则,作为子图聚类、子图语义结构识别和图结构模型评估的判别标准。为统一挖掘图中的多样子结构,本文通过基于枢纽点的子图分解算法和基于自网络的子结构聚合算法,根据几类子图的短径长共性进行挖掘,获得图的分解以及子图集合。随后通过最小描述长度准则以及图编码算法对子图的结构语义进行统一地识别和挖掘。最后借助最小描述长度,将子结构组合获得图的拓扑结构聚集。通过本文的研究,对图的结构进行了挖掘和语义分析,理解了网络的结构。实验表明,本文的方法对图的拓扑结构是一个相对较好的压缩、挖掘和理解。本文充分利用了最小描述长度准则。在图结构挖掘上,通过最小描述长度准则确定了图合并的条件和子图间的重叠关系;在图的编码和结构语义挖掘上,仍然利用最小描述长度帮助识别子图类型,结合引入应对稀疏结构的树结构模板,获得了对当前图结构聚集算法Vog的一个改进。
其他文献
由于科学技术的快速发展,人们获取的信息量也随之爆炸式增长。而图像是人类获取信息的重要途径。为了有效的利用图像中的信息,需要用到图像分割技术提取图像中关键信息。图像
从移动在线支付到网络直播,无处不在的移动互联网极大地方便了人们的生活。由于用户数量与需求的日益膨胀,如何使得传输层协议更好的适用于无线链路成为研究者关注的问题。目
由于嵌入各式各样传感器的智能手机、平板电脑等移动终端设备爆炸式普及,人们已经变成了一个个“传感器”,人与移动设备构成了“移动传感网络”,其中移动设备作为基本感知单
无线传感器网络(Wireless Sensor Network,WSN)是由大量微型廉价的传感器节点构成的分布式网络。网络中的传感器节点可对监测区域内的目标进行监测,并利用无线通信技术,以单
本文主要研究解决神经元形态自动重建中分支点检测的问题。神经元形态自动重建是研究神经系统工作原理甚至探究大脑奥秘的重要手段。现有的一类最常用有效的重建算法,局部追
教育数据挖掘(Educational Data Mining,EDM)是数据挖掘、机器学习、统计测量和教育心理学的交叉研究领域。EDM旨在挖掘从教育场景中自动获取的学生学习行为或者与之相关的大
过去的几十年见证了生物特征识别领域的蓬勃发展。生物特征一般包括虹膜、指纹、脸部、DNA等可测量的、独特的和永久的生物特性。人耳在生物特征领域是一个比较新的特征,人耳
在我国农村经济发展迅速,农村市场不断深化,农村在资金需求、金融发展方面要求逐渐升高,然而我国农村银行网点建立相对过稀,业务办理较为不便,并且有些居民在办理业务过程中
近年来,在我国京津冀地区经济发展水平不断提升的同时,一系列问题也随之而来,其中比较突出的如基本公共服务的均等化问题,已经越来越成为制约京津冀地区实现一体化进程的障碍,甚至可能会影响社会的稳定。本文从公共管理学角度对基本公共服务的含义进行探究,依据相关原则,提出了6个一级指标,包括有教育服务、卫生服务、文化服务、信息化服务、基础设施服务、社会保障服务,21个二级指标,如万人普通高校学数、万人床位数、
假冒伪劣是一个全球性的问题,涉及烟草、白酒、化妆品及国计民生各个方面,给消费者和正规生产厂家都带来了极大的损失,也严重影响了国家和地区的形象。国家相关部门、生产企