知识图谱中的多元关系挖掘方法研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:fyishen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二元关系通常指的是一对实体或者一个实体与一个字面量间的联系。现实世界中存在许多复杂关系涉及到不止两个实体,这样的关系称之为多元关系。对多元关系的识别有助于从更高的层次分析和利用知识。目前关于多元关系挖掘的研究主要集中于面向文本的多元关系抽取,然而以二元关系为基本结构的知识图谱中蕴含了丰富的多元关系知识,能够为多元关系挖掘提供大量结构化的素材。目前尚未有学者对知识图谱中的多元关系挖掘方法进行系统性研究。在知识图谱中构成一个多元关系的二元子关系存在频繁共现的现象,因此本文利用频繁子图挖掘的思想在知识图谱中进行多元关系挖掘,提出了知识图谱中的多元关系挖掘方法:NR-Miner。本文的主要工作内容总结如下:1.提出了多元关系的模式扩展方法。针对知识图谱的多标签图特性,本文提出多标签模式的扩展方法。针对多元关系与频繁相关关系之间的差异性,本文首先提出关系节点的选择方法,其次通过对多元关系的分析,提出多元关系模式扩展方法。2.提出了多元关系的支持度计算方法。现有的支持度定义无法适应知识图谱的多标签图特性,本文首先提出一种多标签模式的支持度定义MMNI;多元关系与频繁相关关系之间存在差异性对支持度计算也存在影响,本文利用多元关系的特点,优化多标签模式支持度定义MMNI,提出多元关系支持度NMNI;接着从理论上证明MMNI与NMNI的性质;最后提出支持度计算过程中的实例枚举优化方法。3.提出了多元关系剪枝方法并进行多元关系模式闭合性研究。首先利用DFS编码的思想,提出多标签图的同构判断方法,并用以剪枝同构的多元关系模式;其次分析挖掘过程中的其他剪枝方法对于剪枝频繁相关关系起到的作用;最后对频繁多元关系挖掘模块得到的频繁模式进行闭合性分析,并设计非闭合模式过滤方法,得到满足闭合性、频繁性、连通性、整体性的频繁多元关系。在常见知识图谱数据集上的实验表明:本文提出的多元关系挖掘方法NR-Miner能够精确、全面、有效地挖掘出知识图谱中的多元关系,为多元关系挖掘的研究提供了一种新的思路。
其他文献
心血管疾病是目前全球人口死亡的第一大病因,且死亡率正在不断上升。其中心肌缺血缺氧导致的缺血性心脏病是心肌损伤中最常见和最主要的原因,心肌缺血如果不及时得到治疗,会通过胞内自由基和钙离子超载等诱发细胞凋亡。氧化铁纳米颗粒因其良好的生物相容性而在生物医学领域得到了广泛的应用,如医学诊断剂,药物载体,肿瘤热疗等。已有的研究报道显示氧化铁纳米颗粒能够在动物和细胞水平上发挥抗心肌缺血损伤的作用。在本文的研究
随着信息化水平的提高,热工过程中运行数据的获取和储存越来越方便,而自联想神经网络作为一种非线性神经网络建模方法已经成为研究热点,在热工过程中得到广泛应用。本文针对自联想神经网络建模、故障诊断以及迁移方法进行研究,研究内容如下:针对热工过程建模受样本分布影响较大的问题,提出了一种高质量样本提取方法,该方法以主成分为依据,计算出系统级稳态因子,并以此作为稳态权重进行样本约简,进一步根据约简后样本的权重
拥有128位地址空间的下一代互联网协议IPv6有效解决IPv4地址不足问题的同时,也给IPv6网络地址的管理与分配带来了巨大挑战。默认64位的IPv6地址空间中可使用IPv6网络地址数量巨大但同一时刻活跃IPv6地址极少,此外,IPv6出于不同目的也设计多种地址配置方式。利用传统地址扫描工具无法在可接受的时间内对目标IPv6地址空间开展有效扫描探测工作,现有研究方向主要包括持久化可公开获取IPv6
HEVC编码标准是ITU-TVCEG在H.264编码标准后所制定的视频编码标准,相较于H.264,HEVC标准提升了视频的压缩效率以及错误恢复能力,在有限的传输带宽下HEVC能够传输更高质量的视频,但其编码复杂度的提升,带来了视频编解码效率低下的问题。而且媒体解码是比较消耗资源的,尤其是软解码对处理器和内存要求更高,而国标视频系统要求软解码媒体数据,这就需要对性能提出一定要求。针对这些问题,设计并
当代飞行事故发生的主要原因是人为出错,检测飞行任务过程中的疲劳并采取措施,能够有效降低人为出错、降低事故率。疲劳的形成机制以及现有研究中对疲劳的定义方式多样且复杂,目前用来评价疲劳程度的方法包括生理指标检测、行为观察和主观问卷评价等。在本研究中,将执行特定任务过程中遭受任务负荷和各种环境因素影响所产生和积累的综合性疲劳现象定义为“工作疲劳”。本文结合仿真飞行任务和眼动评价指标,旨在探索适用于飞行状
冠脉支架植入术是冠心病的主要治疗方法,通过将压握的冠脉支架植入病变血管,随后扩张支架撑开狭窄血管,来恢复血液流通。目前,新一代的生物可降解聚合物支架力求解决金属支架永久植入引起的并发症等问题,但其力学性能不足,且支架壁厚较大增加再狭窄的风险。由于支架植入时的压握扩张是影响支架服役时力学性能的重要因素,因此,本文利用数值仿真与实验结合的方式,研究生物可降解薄壁聚合物支架压握扩张过程的力学行为,为研制
异常检测在现代大型分布式系统的管理中作用显著,记录系统运行时信息的日志被广泛用于异常检测中。然而在实际大规模的软件开发生产中,密集的日志输出会产生大量对异常检测无用的冗余日志,不利于从中挖掘有用信息,并且随着如今系统规模越来越庞大,日志记录的开销问题不容忽视。目前解决大规模日志开销相关问题的方法效率低下,有效性差。本文针对该问题提出一种对日志记录开销进行优化的方法,利用设计的基于深度学习的异常检测
本文以亚洲现代建筑中的“楼地面”这一要素为线索,从亚洲的“环境条件”“生活形式”与“建造意识”三个主要范畴以及相互间的影响关系展开论证,结合实践案例,意图探究在有着“地面生活”传统的亚洲地区,具有一定地域特征的现代建筑的设计和建造方法。本文将亚洲的“环境条件”、“生活形式”与“建造意识”视作影响楼地面设计的重要因素,分别以“楼地面作为理解亚洲的特定视角”、“环境条件与生活形式主导的楼地面设计”、“
双跳中继60GHz无线网络利用中继节点进行协作传输,可克服60GHz信号传播距离短、易被阻挡等缺陷,成为突破60GHz网络自身性能瓶颈的一种有效技术手段。考虑到用户需求时变、AP/Relay节点负载受限等因素,如何实现高能效的链路调度机制是当前所面临的重要技术挑战。同时,由于60GHz链路易被阻塞,其性能受网络环境的影响显著,亟需低延迟的链路切换机制以应对网络环境的动态变化,从而保障网络传输的可靠
随着片上系统(System On Chip,SoC)中计算任务复杂度增加,特别是在人工智能这样密集计算领域,异构多核SoC成为一个重要发展方向。SEP8000是一款面向ADAS(Advanced Driving Assistance System)的人工智能芯片。由于卷积神经网络(Convolutional Neural Network,CNN)加速器吞吐率需求引起的总线吞吐率带宽不够、访存冲突严