基于知识图谱技术的聚类优化研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yc513485587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于二十一世纪网络的发展与信息量的剧增,各类数据间的关系变得越来越复杂,人们也不得不与大量的数据打交道。因此,当前的世界已经进入了大数据时代。为了能够在杂乱无章的数据海洋中高效的检索和整理出人们所需要的信息,就要对大量的数据进行批量分析和聚类,然后实现对这些不同类型数据的量化处理,并使用某种固定规格的数组或者向量来表示它们,这种表示将会满足后期应用中对数据的统计,检索,推荐以及分类等需求。对这些数据的处理要用到多种多样的数据挖掘技术。在数据海洋中,往往会存在着一种非规则的数据链接集,这种集合的基本组成部分通常具有不同的属性与特征,但是这些部分又互相连接从而构成一个网络。这种非规则的数据链接网络通常被叫做非欧几里得图。现实世界中,具有这种结构的数据集数不胜数。例如:社交网络,文献索引网络以及蛋白质分子结构网络等,它们被叫做知识图谱。在知识图谱的应用中,聚类是一种基本的操作,它将网络中的在欧式空间中相近的结点对象或者链接对象进行划分。非监督算法首先会进行聚类操作,然后再进行分类或者其它操作。半监督的图卷积神经网络是一种谱域聚类网络,它的结构因应用而异。在文中展示了非监督算法的聚类表现。由于聚类通常缺乏监督性,所以更多的探索了这些方法的分类表现,这些模型分类表现在它们的聚类能力中具有较为直观的参考意义。在这些技术中,本文针对两个存在的问题进行了研究工作。其一,在图卷积神经网络中,由于数据样本的不完善,并存在一些隐式信息需要挖掘,导致网络对它们的特征提取较为困难,不能达到更好的聚类效果。但是通过增强神经网络的训练来提取它们将会大大增加训练的成本。因此希望通过某种数据预处理的方法转换这些隐式信息为显示信息,从而优化神经网络在高维空间的聚类能力。根据这个想法,本文介绍了一个基于非欧几里得图结构的数据优化方法,该方法将会对原始的数据进行分析和邻接特征聚合,以探索通过该方法处理后的数据是否能够优化模型的表现。该方法在图的邻接特点和特征分布的角度上来挖掘出样本中的隐式数据,增强网络对它们的提取能力。本文中使用了几个流行的数据集在实施分类任务的对比实验中证明了该方法的优化性。除此之外,在图谱嵌入技术中,二叉树形的层级网络存在学习频度不均衡的情况,当训练过拟合时,它也许会导致更多的分类错误。所以,我们认为嵌入神经网络的哈夫曼树聚类器每层的学习频度需要被适当的调整。针对这个想法,设计了一种基于该神经网络的层次梯度调节机制,该机制旨在人为并且动态的调节树形神经网络每层神经元的学习频度,使得神经网络每层的学习频度分布合理,优化模型的表现。实验也使用了另外几个数据集验证了该方法是否有效,并总结经验。为了更好的说明我们在该领域所作的工作,本文将首先介绍多种图谱分析方法的应用背景,应用范围,所涉及到的主流分析框架,技术原理等内容。有了这些理论基础的铺垫,进而介绍基于该领域改进的具体内容,技术原理,实验证明和总结。
其他文献
油田开采过程中涉及的项目种类比较多,因此需要应用大量的生产设备,同时还要涉及油田开采过程中需要的原材料、产品等,一些产品和原材料具有易燃易爆、有毒有害等特点,所以我们要高度的重视油田采油现场的安全管理工作。本文主要阐述了采油现场常见的危险源,对采油作业现场常见的安全隐患分析,根据实际情况制定采油作业现场的危险预防与控制措施。
在计算机视觉的基本任务中,目标检测毫无疑问是应用最广泛的算法。在完成目标识别任务的基础上,目标检测任务还要将不同类别的目标用不同颜色的矩形边界框表示出来。最近,基于深度学习的目标检测算法向人们展示了非常强大的能力。这些方法通常假定有大量标记的训练数据可用,并且训练和测试数据来自相同的分布。然而,这两个假设在实践中并不总是成立的。在现实中,训练集和测试集的数据往往存在很大的不同。这将会导致检测准确率
猪作为一种可以大规模养殖的动物,在动物养殖领域占有极其重要的地位。当今社会的飞速发展使得日常生活水平显著改善,猪肉供给量的增加导致猪只养殖基地不断扩充,然而如何有效安全的对养殖基地进行集约化管理成为当前所面临的首要问题。猪肉在我国肉制品消费的种类中占有很重要的地位,但是猪瘟疫情时有发生,为了保证食品安全,防止问题猪肉流入市场,对猪肉源头进行有效监管的需求日益迫切。除此之外,随着人们防范意识的不断增
随着移动互联网的快速发展,伴随着的是用户需求的快速增长,为解决用户海量的需求,开发者需要开发出大量的应用。理解已有程序代码是许多软件开发任务的基本步骤,如何才能快速地分析出代码所实现的功能,并尽可能地压缩程序开发和维护流程,已经成为软件工程领域的热点问题,具有十分重要的现实意义和经济意义。传统的程序分类任务只能依赖大量的人力进行人工标注,效率低下。有学者从自然语言处理领域借鉴经验,将深度学习引入到
随着汽车产业和经济的发展,机动车保有数逐年增长,交通安全更是成为制约汽车产业进一步发展的桎梏。主动避撞系统作为一种能提升行驶安全性的主动安全技术越发受到人们的关注。主动避撞系统包含了纵向主动避撞和横向主动避撞,虽然前者的技术更为成熟且在市场得到广泛推广,但当主车车速较高或前车与主车的相对距离难以满足纵向主动避撞的需求时,横向主动避撞却能实现更有效的避撞。故针对汽车纵横向主动避撞控制策略的研究对车辆
认知障碍是指人体认知功能的损害,根据功能损害的程度不同,可诊断为轻度认知障碍(Mild Cognitive Impairment,MCI)或重度痴呆(Dementia)。由于身体机能及大脑神经的衰退,认知障碍普遍存在于老年人。据科学统计,认知障碍难以治愈,每年影响约1000万人,因此有效、准确的诊断引起了广泛关注。近年来,结合先进设备的3D影像结果和临床认知障碍测试量表结果,医生可以分析得到准确的
随着神经网络的广泛应用,其缺点愈发被发现。由于会产生“灾难性遗忘问题”而无法进行增量学习。近些年来,迁移学习的相关领域发展迅速。迁移学习方法大都注重模型在新任务上的效果,而在过去任务上的效果往往不注重。作为一种特殊的迁移学习方法,增量学习主要任务就是解决“灾难性遗忘问题”。本文将从另一个角度对灾难性遗忘进行解释:神经网络的训练对其数据的分布有很高的要求,如果训练数据不符合目标结果的分布情况,网络将
粒子群算法是由J.Kenned和R.C.Eberhart于1995年提出的一种优化算法,它通过模拟动物种群的行为而设计,其目的是获得最优解。这些群体内部各成员之间通过互相协作的方式去寻找食物,并且群体中的每个成员在搜索过程中都积累一定的经验,粒子群算法就是根据这些个体自身的经验和学习其他成员的经验,来不断的改进搜索方向和搜索进度。粒子群算法具有良好的优化性能,使用简单且应用广泛。美中不足的是,粒子
随着互联网技术的不断发展以及人们生活需求的不断增长,智能网联汽车的概念应运而生。与传统汽车相比,智能网联车的功能更加丰富,需要处理的网络数据量的规模也更加庞大。而传统的车载网络的带宽有限,无法处理大量的网络数据。与传统的车载网络相比,车载以太网具备高带宽、高吞吐量、低成本等优势。目前,许多汽车制造商已逐步应用车载以太网来满足高级驾驶辅助系统应用的运行需求。因此,车载以太网在汽车上的应用前景十分广阔
随着改革开放的脚步不断向前大步迈进深化发展,我国经济发展势头日新月异、迅猛提升,经济的发展紧密了世界各国间的联系,中国逐渐从一个发展中国家向发达国家迈进,物质的供给与物质的储备得到了极大提升,与此同时精神需求日益上涨,文化领域得到了空前的发展,其中电影领域的发展尤为瞩目。中国电影从以往为艺术类电影创作模式转向市场经济化运作模式,发展势头强劲,电影市场的蓬勃发展一方面得益于国家相关部门大力扶持,另一