基于重叠模块度的社区离群点挖掘算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:danNyZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络的社区结构得到了广泛而深入的研究。传统的社区发现算法针对的是数据间的关联特性,而忽略了数据的固有属性。然而,结合数据的社区特性和固有属性挖掘得到的离群点可解释性更强,社区离群点就是其中之一。现有的社区离群点挖掘算法针对传统无重叠社区采用概率模型进行挖掘。为了达到更准确的社区划分,社区间的重叠现象成了社区离群点检测中不可忽略的一部分。因此,优秀的社区离群点检测算法要做到准确的社区划分和离群点检测。为了评估社区划分的结果,Newman等提出的NG模块度作为衡量网络划分好坏的标准也引起了学者的广泛关注。但是NG模块度在应用上存在着分辨率限制的缺陷,即通过模块度优化不能检测到规模较小但结构显著的社区。   因此,挖掘社区离群点首先需要:1)克服分辨率极限问题,以达到更准确的社区划分;2)结合网络的社区特性和对象的固有属性,在重叠社区中挖掘到更准确的社区离群点。论文的主要工作如下:   (1)提出模块密度的概念,即模块内平均边数与总边数的商,并在此基础上重新构造了重叠模块度函数—CQ来评价社区的划分,从而解决NG模块度的分辨率限制、不能分辨小于一定规模的社区的问题。理论方式证明,提出的重叠模块度克服了NG模块度函数的分辨率极限问题,经典网络和真实数据集的实验验证了构造的模块度的准确性和有效性。   (2)提出基于重叠模块度的社区离群点挖掘算法OCODA(Overlappingcommunityoutlierdetectionalgorithm)以克服现有社区离群点检测算法由于忽略社区间的重叠现象而导致社区离群点划分不准确的问题。两个对象属性值的偏差程度越大,对象间的相似度越小,属于同一社区的概率也越小。据此,提出属性偏离程度和属性贡献因子,并分别引入到相似度和模块度的计算中,从而使其适用于社区离群点挖掘。OCODA首先根据节点间的相似度对节点进行聚类,并根据固有属性的偏离程度进行离群点判断,若属性偏离程度高于阈值λ,则将此节点划分为社区离群点,然后根据重叠模块度的变化进行迭代聚类,若前后两次的重叠模块度之差大于0,则迭代终止,最终选取重叠模块度最大的作为划分结果,并得的相应的社区离群点。实验结果表明,提出的算法不仅能准确地发现重叠社区而且能有效地检测社区离群点。   (3)为验证本文提出算法的有效性,采用面向对象的设计思想,利用C++语言在VisualC++6.0开发平台上,设计并实现一个基于重叠模块度的社区离群点检测的原型系统,并对系统进行测试,测试结果表明系统运行良好,达到预期的目标。
其他文献
用分形思想模拟的自然景物在虚拟现实环境中的应用越来越广泛。而迭代函数系统(IFS)作为分形理论的一个分支,在一大类物体的建模问题中具有很大的优势,特别是对自然景物的计
云计算是当前网络技术领域的热门话题之一,是产业界、学术界、政府等各界均十分关注的焦点。在云环境下,网络数据分布呈现复杂化、多样化、动态化,对web服务安全提出了更高要求
物体形状轮廓的多边形近似是计算机视觉和图像分析领域的一个基础问题,相关算法已被广泛应用于形状匹配、目标识别、形状检索、形状编码等视觉与图像分析任务。本文首先概述多
无线传感器网络是由大量的传感器以自组织和多跳的方式构成的无线网络,实时协作地感知、采集、处理和传输网络覆盖地理区域内被感知对象的信息,并最终把这些信息发送给网络所有
非真实感绘制(Non-photorealistic rendering,NPR)是计算机图形学的一类。自20世纪90年代中期,非真实感绘制逐渐成为计算机图形学的研究热点之一。非真实感绘制指的是利用计算机
随着我国改革开放的深入和全面建设小康社会目标的实施,我国的经济实力和居民生活水平得到了大幅提高,人员和货物流动空前活跃,使道路建设和交通管理日显滞后。机动车的拥有
作为智能的交通系统的基础之一,车载自组织网络的目标是为移动车辆节点提供一个移动的通信平台,能够提高交通的通信效率、降低事故发生率,使得乘客都能方便的、快捷的接入到互联
随着信息时代的逐步推进,科学工作流得到了广泛的应用。特别是在科研领域的应用更是广泛,如天文学,高性能物理学等。由于科学工作流需要的数据规模很大,为了执行科学工作流,
随着国家教育体制的改革,教育信息化对高校的信息化管理建设不断的提出更高的要求。但由于信息化建设的速度往往跟不上信息化发展的速度,导致出现了以下问题,一方面,在招生规
随着生命科学领域高通量实验的发展,人们得到越来越多有关蛋白质结构和功能的生物数据,生命科学的研究重点从解码基因组慢慢转变到对蛋白质的研究,进而探索生命进化的过程。蛋白