【摘 要】
:
传统的属性约简算法通常默认样本之间满足独立同分布假设。然而,现实世界中存在很多对象具有固有依赖关系的情况,也即不满足独立同分布假设,这种形式的数据通常可以很容易地用图结构来表示。因此我们这篇论文针对具有先验依赖关系的数据,也即图结构数据,研究其在节点分类任务的背景下的约简算法。我们从两个方面入手来研究图结构数据的约简。第一方面是图结构的约简,第二是图节点属性的约简。图结构的约简关注的问题是如何在维
论文部分内容阅读
传统的属性约简算法通常默认样本之间满足独立同分布假设。然而,现实世界中存在很多对象具有固有依赖关系的情况,也即不满足独立同分布假设,这种形式的数据通常可以很容易地用图结构来表示。因此我们这篇论文针对具有先验依赖关系的数据,也即图结构数据,研究其在节点分类任务的背景下的约简算法。我们从两个方面入手来研究图结构数据的约简。第一方面是图结构的约简,第二是图节点属性的约简。图结构的约简关注的问题是如何在维持原图的某些特性不变的前提下将原图的节点(边)进行聚合从而构造一个节点数量更少、结构更紧凑的概要图。对于这个问题,图概要研究领域已经提出了若干技术可以实现。然而,它们均未考虑图结构的节点分类质量,如果直接将这些算法作为节点分类任务的预处理,将会对下游节点分类模型产生很糟糕的影响。因此,我们设计了一个新型的基于聚类的图概要技术,它采用粗糙集理论和模糊聚类分析技术来识别并剔除原图中的冗余或无关结构并获得原图的核心表示。该算法会维持节点分类质量损失在可容忍范围内的前提下,通过合并拥有相等或相似邻域的节点来构建概要图。具体而言,首先,对于图中的某个节点,我们计算这个节点与所有节点的近邻度,这些近邻度构成的向量代表这个节点的邻域结构。我们用邻域结构来衡量节点之间的结构上的相似性关系。其次,根据这种关系和已知的标记信息,借助模糊聚类分析和粗糙集理论,我们就可以确定节点之间关于图的结构和已知的标记信息的等价关系。最后,我们对等价节点进行合并进而构建简图。我们在三个真实世界数据集上进行了充分的实验,实验结果表明,我们所提出的算法相比其它图概要算法拥有自适应调节约简率的功能,因而在节点分类任务中能取得更好的表现。除此之外,尽管我们的算法简化了原图的信息,但在很多情况下,约简后的概要图却拥有比原图更好的性能,这表明我们的算法能够去除原图的噪声信息。图节点属性的约简关注的问题是如何借助节点之间的固有先验关系(图结构)来更有效地约简节点属性。这个问题可以分解成两个简单的问题:一个是如何从节点的固有先验关系中提取出节点集上的等价关系,另一个是如何将该等价关系与节点属性导出的节点等价关系进行融合。针对第一个问题,本文给出了三种解决方法,分别是基于节点的二阶相似关系的方法、基于无监督图表示学习的方法和基于谱聚类的方法。前两种方法都旨在获得能够表示节点先验关系的节点向量表示,进而可以根据该表示计算等价关系。最后一种方法旨在直接获得节点集的划分,进而直接导出等价关系。针对第二个问题,我们提出了一个通用的框架用以将基于节点先验关系的等价关系和基于节点属性的等价关系结合起来。我们在真实世界数据集上进行了实验,实验结果表明了我们所提出方法的有效性。
其他文献
自动驾驶在近年来受到了学术界和工业界的广泛关注,交通场景感知是自动驾驶中一个重要的且极具挑战性的任务。道路交通标线的检测结果能为自动驾驶系统提供大量的指导信息,而其中车道线检测尤为重要。在本文中,我们主要关注以车道线为主的道路交通标线,利用深度学习技术对其进行检测,主要工作如下:首先,在基于深度学习的车道线检测中,一种做法是将车道线检测视为一个语义分割任务,逐像素地对图像进行检测,另一种做法则是直
糖尿病在全球范围内对社会经济、医疗以及人类健康等方面的影响日益增加,因此发展快速、准确的葡萄糖检测技术越来越重要,这对糖尿病的预防及治疗等具有重大意义。随着葡萄糖传感器相关研究的不断深入,可应用于第四代无酶葡萄糖传感器的电极材料成为当前新材料的研究重点之一。其中以过渡金属元素化合物为基的无酶葡萄糖传感器可避免传统酶基葡萄糖传感器稳定性差、检测结果重现性不好等弊端,也可解决贵金属材料电极由于成本过高
光学透射材料是光学材料的重要组成部分,其主要的性能参数包括表面面形、光学厚度变化以及光学均匀性。光学性能参数的不一致将引起透射波前的改变从而降低光学系统的性能,因此实现对光学材料光学参数的高精度测量很有必要。在众多测量方法中干涉测量由于具有高灵敏度、高精度等特点应用最为广泛,然而在测量平行平板类光学元件时,平板的多表面干涉会给光学参数的测量带来困难,因此本课题采用波长移相干涉结合移相算法来实现对目
水下潜行器作为水中作业的工具或是作为国防武器装备发挥着非常重要的作用。螺旋桨是水下潜行器的核心部件之一。作为推进装置的重要组成部分,其可靠性和安全性必须非常高,水下潜行器推进装置的可靠性也逐步从一项指标成长为一个重要的研究方向。在海面之下,无法通过可见光对螺旋桨进行监测并且上岸检测故障存在滞后性,因此通过信号处理的方法进行螺旋桨故障及时诊断对于水下潜行器具有重要的意义。本文基于CFD数值计算,针对
新型Co基高温合金中L12-Co3(Al,W)析出相的发现,使得Co基高温合金的固溶温度、蠕变性能和抗氧化性能得到进一步提升,析出强化型Co基高温合金被认为是更高温度下服役的“新一代航空发动机用高温合金”。但析出强化型高温合金长期高温和应力下会发生析出相定向粗化形成筏化组织,严重影响蠕变性能。揭示应力作用下筏化的微观机制,对理解新型Co基高温合金组织结构演变和成分设计具有参考价值,同时可预测合金蠕
随着环境污染与能源问题日益严重,催化所起的作用也日渐明显。光催化、压电催化、热释电催化等催化技术经过多年的研究发展,遇到不同的发展瓶颈,伴随着的是层出不穷的解决方案与新的催化技术的探索。本论文选用水热法与熔盐法分别制备钛酸锶(SrTiO3)纳米颗粒与钛酸锶微米片,并且通过改变水热法的生长条件,制备得到低结晶的钛酸锶LC-Sr Ti O3纳米颗粒与高结晶的钛酸锶HC-Sr Ti O3纳米颗粒。通过研
热电器件可以将热能和电能进行转换而不排放有毒气体,为当前的能源危机提供了一个有效的解决方案。虽然单晶SnSe在b轴方向实现了ZT=2.6的超高热电性能,但单晶SnSe的加工性较差,生产周期较长,限制了其应用。由于多晶SnSe工艺简单、机械性能好和可大规模的生产,发展高性能的多晶SnSe成为了研究的焦点。我们设计出强磁场辅助水热法和优化工艺参数制备出纳米结构的SnSe,通过利用能量过滤、应力场波动等