基于实体关系联合抽取的领域知识图谱构建与应用

来源 :云南大学 | 被引量 : 0次 | 上传用户:zqqv353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识图谱(Knowledge Graph,KG)相关技术的快速发展,领域KG已经成为学界和业界关注的重点。与传统的领域数据管理方法相比,领域KG作为结构化的语义知识库,能够帮助人们有效地获取知识之间的逻辑关系,从而为智能问答、搜索引擎和决策支持等领域应用提供数据支撑。因此,高效的领域KG构建,对领域知识的有效管理、直观展示等具有重要意义。由于领域KG的适用范围较小且更加注重知识的准确度和深度,相较于通用KG拥有的大规模知识,领域KG的构建仍然存在缺乏标注语料等问题。因此,如何以尽可能少的标注语料实现领域KG的构建,是本文研究的关键问题。此外,实体关系的联合抽取,作为领域KG构建过程中的关键环节,现有的模型无法有效抽取领域文本数据中的实体和实体间的重叠关系。因此,如何有效地抽取领域文本数据中实体和实体间的重叠关系,是本文需要解决的另一关键问题。对此,本文提出一种融合主动学习思想的实体关系联合抽取方法,基于抽取的三元组构建领域KG,并将其应用到少数民族独龙族领域。本文的研究工作概括如下:(1)针对领域标注语料缺乏的问题,提出一种基于主动学习的待标注数据采样方法,通过综合评估样本价值和样本相似性选取待标注样本,实验结果表明,本文所提出的待标注数据采样方法能够有效降低标注成本。(2)针对领域文本数据存在的重叠关系问题,提出一种基于BERT-Bi GRU*-CRF的实体关系联合抽取模型,用于对领域文本的实体和关系同时进行抽取。其次,建立在NYT公开数据集和少数民族领域真实数据集之上的实验结果表明,相比于其他现有模型,本文所提出的方法能够更加准确地识别出文本中的实体和关系。(3)本文以独龙族文化领域知识为例,基于本文所提出的领域KG构建方法,设计并开发独龙族文化KG构建与语义问答系统,实现了独龙族文化KG构建、KG可视化查询、独龙族文化领域知识问答等功能。
其他文献
如今,社会已经进入信息化时代,各领域在面对信息化转型时会产生大量空间数据。因此,空间数据挖掘成为了不可忽视的研究方向。在空间数据挖掘中,快速且高效的空间co-location模式挖掘近年来得到研究者极大重视,收获了丰富的成果。Co-location模式的挖掘目标是识别空间事物之间的并置关系,因此识别出的co-location模式仅反映出空间事物之间的同位关系;基于团实例模型的传统colocatio
学位
脚骨脆属(Casearia)植物在南美和亚洲等国家已被用于民间医学,用来治疗溃疡、糖尿病和抗菌感染等。研究发现,该属植物中次生代谢产物主要以克罗烷型二萜、三萜、苯丙素类等化合物。药理研究也证明,该属植物的粗提物或单体化合物具有降血糖、抗氧化、抗炎、细胞毒性和抗菌等活性。基于现在具备的对植物中二萜类成分提取分离研究的经验和条件,以及对化合物进行抗炎活性研究的基础。本论文以采集自云南普洱的球花脚骨脆(
学位
蛋白质是生命活动最主要的载体,了解蛋白质的结构对于认识其功能有着至关重要的意义。近年来,用深度学习的方法从蛋白质的序列进行结构预测的工作已经有了巨大进展,作为蛋白质结构预测中必不可少的一步,蛋白质模型质量评估工作不仅可以帮助从模型池中挑选出最优的模型,也可以为模型进行局部优化提供参考,是蛋白质结构预测的最后一步。在蛋白质模型质量评估的研究中,使用深度学习模型进行蛋白质结构的特征表示学习是非常有效的
学位
社会网络是由网络中个体成员之间的交互作用形成的,被广泛应用于描述成员之间的相互行为。由于近年来社会发展迅猛,社会网络也呈现多样化发展,伴随着的便是网络信息的复杂化,也更加凸显了它的研究价值。社会影响力是在一定的网络下,个体能影响并改变其他人行为举止的一种能力。影响力最大化(Information Maximization,IM)问题旨在寻找网络中使信息成功传播最广泛的网络成员集合,以至于能够将这些
学位
烟草是我国重要的经济作物之一,云南省作为“烟草王国”,在烟草质量、产量、销售量与出口创汇等多项指标中多年连续位居全国首位,同时烟草也是云南省经济社会发展的重要支撑和财税收入的主要来源。烟支作为烟草最常见的产品,一直以来都是烟草行业发展的重点。目前烟支的高速生产线虽然能满足产量上的需求,但不可避免地给烟支质检提升了难度。在质检中,烟支外观瑕疵会直接影响香烟质量,如果次品大量流入市场,不但会降低消费者
学位
空间频繁并置(co-location)模式是一组空间特征的子集,这些特征的实例在地理空间中频繁地出现在一起。空间并置模式挖掘旨在从空间数据中提取人们尚未知道但潜在有用的信息从而更好地服务人类活动,它已经驱动了许多社会应用,如基于位置的服务、城市规划等。尽管对频繁并置模式挖掘技术已经开展了许多探索,但仍然存在一些问题:(1)空间实例的邻近关系计算完成后通常存储在内存中,这种方式收集候选模式的表实例具
学位
抚仙湖1米真空太阳望远镜(NVST)受到大气湍流的影响,观测图像通常伴随着模糊或严重退化、更多的噪声和局部细节丢失。虽然近年来深度学习被广泛用于图像重建,但它们通常仅适用于运动、抖动模糊,对于太阳图像的重建依然存在高频细节丢失、生成伪像、边缘轮廓平滑等问题。本文利用生成对抗网络(GAN)与弱监督学习(WSL)相关技术,针对上述问题进行了研究,主要工作如下:(1)提出一种基于双阶段特征金字塔网络(F
学位
脚骨脆(Casearia balansae),为大风子科(Flacourtiaceae)脚骨脆属植物。在民间,本属植物表现出抗疟、抗感染、抗炎等活性,用于治疗肠炎、胃溃疡、病毒感染、炎症等症状。脚骨脆中富含萜类成分,尤其是克罗烷二萜,为了发现更多有活性的克罗烷二萜,我们对脚骨脆的化学成分进行了深入研究。炎症,尤其是慢性炎症,涉及多种疾病的发病机制。过度的炎症介质是炎症反应的表现,对组织或机体有害,
学位
信息网络普遍存在于现实生活中,如:社交网络、经济合作网络、交通运输网络等。各种网络正改变并重塑着人们的日常生活。而影响力最大化问题作为网络分析中一个重要的研究领域,其目的是在信息网络中寻找最具影响力的种子节点集合作为初始的信息传播源,使得这些种子节点组合在一起的信息扩散范围最大。该问题的研究对于控制舆情、制定营销策略、防范疾病爆发等都具有重要的理论意义和实用价值。目前,大部分影响力最大化的研究都面
学位
图像修复起源于欧洲文艺复兴时期,随着科学技术的发展和日益增长的美好生活需要,图像修复逐渐成为人们生活娱乐和文化保护的重要方式。图像修复主要从图像的三个角度着手:结构、纹理和语义。传统的修复方法主要从破损图像的结构和纹理进行修复,会忽略图像本身的语义。现有的基于深度学习的修复方法能够获得较高质量的图像,但从结构的连续性和语义合理性两方面来看,这些方法仍然存在修复图像不能与真实图像达到高度一致的问题。
学位