面向聚类分析的深度嵌入算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:liongliong568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域中,聚类分析作为一种数据分析技术,已经发展较为成熟,在机器学习、模式识别等许多领域有着广泛的研究。在大量成熟的聚类算法中,谱聚类因其广泛应用性与扩展性,逐渐受到研究关注。但是现存的大多数谱聚类算法在处理海量数据时计算复杂度和空间开销比较大,并随着数据集维度的增加,算法处理能力的下降,一定程度上影响了聚类结果。为满足当前高维海量数据的分析需求,本文着眼于降低时空复杂度以改进算法效率,同时利用以自编码器为代表的降维技术来提高聚类精度,并将改进的算法应用到大规模复杂网络社区检测中,主要的研究内容包含以下三个方面:(1)针对大多数基于谱聚类框架的子空间聚类算法将高维数据映射到低维子空间时,不能较好捕获数据间几何结构的问题,提出一种引入低秩约束先验的深度子空间聚类算法,兼顾数据全局和局部结构信息。算法结合低秩表示与深度自编码器,利用低秩约束来捕获数据全局结构,并约束神经网络的潜在特征表示为低秩。自编码通过最小化重构误差进行非线性低维子空间映射,保留数据的局部特性。此外,引入归一化层,通过概率的形式预测簇划分,并在联合学习框架中进行训练优化。实验表明该算法在高维数据集表现出良好的聚类性能。(2)针对大多数现有谱聚类算法在处理大规模数据集时面临聚类精度低、相似度矩阵存储开销大的问题,提出一种结合度量融合和地标表示的深度嵌入聚类算法。引入相对质量概念进行节点评估,选出评分较高的点作为地标点,依据稀疏表示近似获得相似度矩阵,从而降低存储开销。同时考虑到近邻点的拓扑信息,将欧氏距离与Kendall Tau距离融合来度量地标点与其他样本之间的相似度,提高聚类精度;以栈式自编码器取代拉普拉斯矩阵特征分解环节,构建深度嵌入模型,并将所获得的相似度矩阵作为模型的输入,通过联合学习嵌入表示和聚类来进一步提高聚类精度。实验表明在大规模数据集上该算法具有较好的聚类性能。(3)为了解决在大规模复杂网络背景下,利用现有网络嵌入方案难以捕获并保留网络结构,获得低维网络特征表示的问题,基于前面所提出的低维特征表示及相似度矩阵的构造方案,提出一种面向复杂网络社区检测的深度嵌入网络模型。该模型的输入矩阵结合自适应度量和地标表示,在保留全局和局部结构信息的同时降低内存消耗。此外,受深度自编码器和非负矩阵分解模型启发,将单层映射的NMF模型转变为包含编码器和解码器两模块的多层映射NMF深层嵌入模型,用来学习低维网络特征表示,从而实现更精确高效的社区检测。通过在九个真实网络的实验验证了所提算法的有效性。
其他文献
自旋转移力矩随机磁存储器(STT-MRAM)是一种新型的非易失性存储器,被认为是最具有潜力替代Flash的新型存储器之一,在未来的各行各业均具有广泛的应用前景。本论文针对STT-MRAM外围电路的两个主要组成部分:读电路和写电路,进行了相关的设计与研究。首先,针对深纳米级的STT-MRAM,设计了一种具有动态参考和可变容差的新型读电路,实现了极高的传感裕度(SM)和较小的读取干扰(RD);然后,设
视觉目标跟踪经常被应用于无人机、视频安防、智慧城市等领域,其任务是给定初始帧中待跟踪目标物体的信息,在后续视频帧中预测目标的实际位置和尺寸大小。在复杂背景环境下既保证跟踪精度又保证跟踪速度是视觉目标跟踪任务的难点。本文以深度孪生网络结构为基础,针对当前视觉目标跟踪算法中存在的难点问题展开研究,具体研究成果如下所述:(1)通常卷积网络提取到的特征包含低层、中层和高层抽象信息。许多孪生网络类跟踪算法在
信息物理系统(Cyber Physical Systems,CPSs)是将传感、通信、计算和控制过程高效结合而形成的复杂系统。目前,信息物理系统已在智能电网、医疗监测、智慧工厂、智能交通等众多领域得到广泛应用。不同于以往封闭式的工业内部网络,通讯网络的接入极大地提高了系统运行效率同时,也带来了许多安全问题。近年来针对信息物理系统的攻击事件频频发生,造成巨大的经济和社会损失,这已经引起了国内外相关学
图像相较于文字而言,传递信息的方式更为简单直接,因此运用更为广泛,但图像在采集、传输和使用过程中,往往会引起不同程度的失真,这就需要质量评价算法对其进行评估。现阶段图像质量评价的主流算法大多基于机器学习(特别是深度学习),现有研究表明机器学习算法对数据的对抗性扰动极其不稳定,存在鲁棒性和安全性问题。基于此本文研究了一系列的对抗性扰动样本来攻击现有图像质量评价算法,找出其漏洞,希望本文的攻击方式能让
随着物联网应用与规模的持续增长,同时带来了空前的网络安全威胁和安全风险。对此学术界提出利用威胁情报来对日趋复杂的安全问题进行预警和预测,威胁情报作为一种网络安全大数据,可以有效帮助防御者更好地提升网络安全防护能力[1]。在此,如何高效构建威胁情报就成了一个核心问题。然而,当前在信息安全领域,威胁情报普遍存在着冗余度较高、内容单一、标准不统一的缺陷,难以共享。对此本文通过对恶意代码和非结构化网络威胁
随着网络通信技术和集成电路制造工艺水平的不断提高,系统间的信息交换变大。传统的并行传输接口技术传输数据时,具有抗干扰能力弱、时钟偏斜大和传输距离短等缺点,导致传输接口成为限制数据传输速率的瓶颈。为了满足日益增长带宽的需求,高速串行接口SerDes逐渐取代传统的并行接口,成为了高速接口的主流技术。SerDes通常采用差分的传输方式,差分传输方式具有抗干扰能力强和传输距离远的优点。SerDes作为主流
目标跟踪一直是计算机视觉研究领域的一个重要分支,其通过对视频帧中感兴趣的部分进行数字化处理与定位,从而实现有效跟踪。近几十年来,由于研究人员的不断努力,涌现出许多优异的跟踪算法。与此同时,该项技术也在多个生活场景中得到广泛的应用,比如收集交通数据进行交通指挥监视、自动驾驶中用于估算障碍物运动轨迹的视觉导航、医学诊断中超声波图像的自动跟踪分析等等。随着研究与应用的深入,现实场景中诸如光照、遮挡、平面
演化进化算法作为经典的启发式搜索算法,有着优异的性能表现,是解决各类实际问题的重要工具。随着演化进化算法在科学与工业领域的研究与应用越来越广泛,对于其求解效率的要求也在不断地提高。演化进化算法在求解大规模优化问题时的性能表现难以满足高效率的需求。通过在高性能集群上进行并行化研究来解决这个问题具有重要的现实意义。神威·太湖之光拥有超过125PFlops的峰值运算性能,可以为提升演化进化算法求解大规模
随着万物互联的智能时代到来,精简指令集(Reduced Instruction Set Computing,RISC)的优势愈发突显,而作为开源的精简指令集,RISC-V指令集更适合于当下生态开放的环境。为提高指令级并行度,现通用高性能处理器都采用了乱序超标量架构,由于指令乱序调度、分支预测等设计的复杂性,乱序超标量架构一直是处理器领域的研究热点。本文进行了基于RISC-V指令集的乱序超标量处理器