基于过滤的规则进行数据增强的知识图谱嵌入

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zzhcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱如今已被广泛应用于个性化推荐系统、智能问答系统等领域,由于知识图谱的完整性极大地影响了我们后续对知识图谱的使用,而且知识图谱中的事实信息往往是不完整的,实体之间的一些显而易见的关系在原有的知识图谱中并不存在,因此我们需要对知识图谱进行补全。在进行知识图谱补全的方法中,表示学习方法占据了主流的地位,而在表示学习方法中,翻译模型是其中的代表模型,基于翻译模型的表示学习方法具有很高的可扩展性,且可以有效地评测实体之间复杂的语义信息和关系。数据的丰富程度对于表示学习模型来说至关重要,但已有知识图谱中往往存在了大量的稀疏实体,实体间的联系并不紧密,这就导致了表示学习模型无法准确地补全带有稀疏实体的三元组。传统的方法通过将规则学习的方法与表示学习的方法进行结合来缓解这一问题,但要求表示学习的模型需要满足线性映射假设,而翻译模型并不满足这一假设。为了解决这一问题,我们提出使用一种自底向上的规则学习算法来与翻译模型进行结合以增强翻译模型的表达能力的方法,即通过使用规则学习算法来生成增强数据以增强翻译模型。使用这种自底向上的规则学习算法时,其产生的规则置信度的定义也随之不同,当我们在进行三元组推断时,高置信度的规则产生的三元组大部分已经存在于原知识图谱中了,仅有少部分新三元组为有效三元组,而进行数据增强时,我们需要保证增强数据的数量。这一问题的存在使得我们不能简单地指定一个规则置信度的阈值来筛选规则和产生新三元组,为了解决这一问题,我们提出了一种基于规则置信度的规则筛选方法。同时,由于知识图谱中存在的稀疏实体与稀疏关系导致了表示学习模型对包含稀疏实体或稀疏关系的三元组的学习效果不足够好,我们又提出了着重增强包含稀疏实体或稀疏关系的三元组的方法。本文的主要贡献如下:(1)为了增强翻译模型链接预测的准确性,提出了使用自底向上的规则学习算法来产生高质量的规则,并使用中间模块来推断生成可靠的三元组,以增强翻译模型的表达能力。(2)鉴于自底向上的规则学习算法中对于规则置信度的定义和数据增强对于数据数量的要求,为了在产生新三元组的质量与数量之间达到一个平衡,我们对传统方法进行了改进,不像传统方法那样简单地规定一个置信度阈值来筛选规则,而是根据规则置信度降序遍历规则。(3)知识图谱中也存在稀疏关系,稀疏关系的存在使得传统模型对稀疏关系的链接预测效果不够理想,我们在已有方法着重增强包含稀疏实体三元组的基础上,同时增强包含稀疏关系的三元组。本文分别在WN18、FB15k、WN18RR、FB15k-237数据集上和多个模型上应用了本文提出的两种改进方法,并与不使用这两种方法的多个模型进行了对比。结果表明,这两种方法在三种类型的链接预测评价指标下整体优于原模型,一定程度上增强了翻译模型的表达效果。
其他文献
目的:乳腺疾病患者乳头溢液的出现具有指标性意义,可因乳腺的良性疾病,也可是乳腺导管发生了癌变而表现出最早的临床症状。为了解决目前临床上没有对以乳头溢液为主诉的就诊患者针对性的检测手段来进行评估乳腺疾病的良恶性,提高检测的特异性,以减少对患者非必要进行的乳腺切除手术。我们设计了一个基于表面增强拉曼光谱技术的新型靶向拉曼探针技术应用于临床就诊患者,体外检测乳头溢液中癌胚抗原(Carcinoembryo
研究目的:收集宫颈粘液腺癌患者临床资料,回顾性分析患者的临床表现、辅助检查、病理结果和治疗方案,探讨该病的预后影响因素,以期加深临床医师对该病的认识,为诊疗过程提供参考。研究方法:收集2010年1月~2020年10月吉林大学第二医院手术标本病理检查确诊为宫颈粘液腺癌的病例资料共39例进行回顾性分析,分析患者临床表现、辅助检查、病理结果、治疗方法、预后影响因素。采用SPSS23.0软件对统计数据进行
目的:采用Meta分析的方法综合评价近十年我国女性卵巢早衰发病的危险因素,并得出各因素相关强度,为卵巢早衰的预防提供相关线索。方法:通过计算机检索Pubmed、Web of science、Embase、Cochrane Library、中国知网数据库(CNKI)、中国生物医学文献数据库(CBM)等数据库,收集2011年1月至2020年12月已发表的研究内容为中国女性卵巢早衰发病的危险因素、研究类
背景:宫颈癌是发生在宫颈上皮的一系列临床确定病变的终末期,其演变进展与子宫颈上皮内瘤变密切相关。宫颈上皮内瘤变尤其是高级别上皮内病变的诊治对于控制病情发展、预防宫颈癌发生意义重大。目前,相关指南均推荐子宫颈锥形切除术作为治疗HSIL首选术式。锥切术在一定程度上可以起到SIL病灶切除和HPV病毒清除的作用,但即使治疗后,依然有10%-53%的女性表现为疾病持续或复发,远期发展为宫颈癌的风险也比正常人
转录组和甲基化组基因序列是受遗传信息和环境因素影响的基因组数据的两个主要来源,已被广泛用作疾病诊断和预后的生物标志物。现如今,转录组和甲基化组分析技术可以检测到人类基因组中数千万甚至上百万条基因的状态,但受样本数量的限制,“大P小N”的模式使得转录组数据难以应用流行的分类模型。传统的机器学习方法,主要是依赖于特征选择的能力,而深度学习模型需要大量的数据,迁移学习的方法大部分被应用于图像数据。针对这
互联网技术使得学术论文的传播和获取更加便捷,但同时也带来了信息过载,让科研工作者难以在海量的期刊论文中有效挖掘出所需信息。因此借助人工智能技术进行文献挖掘与分析逐渐成为研究的热点。现有的论文推荐、期刊推荐等方法大多是利用论文的摘要、期刊名等某一种特征信息,往往忽略了论文、期刊和作者的之间丰富的关系,导致推荐的结果差强人意。基于此,本文把论文、期刊和作者的关系抽象成一个异质的网络结构,即刊文网络,然
由2型严重急性呼吸系统综合征冠状病毒(SARS-Co V-2)引起的一系列被称为新型冠状病毒肺炎2019(COVID-19)的呼吸道感染的爆发对世界健康和经济产生重大影响。该病毒可以通过飞沫、接触和污染物在人与人之间迅速传播,所以快速准确检测出病毒基因组或病毒抗原,防止该病毒大规模传播就显得尤为重要。目前针对COVID-19的检测方法分为三类:病理学检测、核酸检测和血清学。病理学检测主要依赖临床表
乳腺癌是全球范围内女性最常见的癌症疾病,也是造成女性癌症死亡的一大原因之一,因此阐明乳腺癌发生发展的内在机制对其诊断和治疗尤为重要。ATP5B一般位于细胞内线粒体,而在乳腺癌细胞、前列腺癌细胞等多种肿瘤细胞中则更多的异位表达于细胞膜。Cav-1是小窝的主要组成部分,具有多种生物学作用。课题组前期实验发现Cav-1参与ATP5B调节的乳腺癌MDA-MB-231细胞的迁移侵袭。CK18(Cytoker
近年来,由于集群机器人在不同应用场景中展现出的巨大潜力,其越来越受到人们的关注,特别是在大规模环境信息的感知,多任务的协作和高可靠任务的完成等场景。作为集群机器人的分支,AUV集群在水下应用场景中也表现出巨大的潜力,例如水下环境调查,自主水下洞穴探测,以及水下考古现场制图等。但在实际应用中仍存在着许多亟待解决的挑战,其中较为关键的就是AUV集群的导航与定位技术。如何实现精准的水下AUV集群导航与定
橡胶材料是一种可再生、可重复利用、具有优良性能的复合材料;相对于金属材料,其具有高弹性、低模量、低硬度、高阻尼等优点。随着制备技术的提升和材料科学的发展,越来越多的橡胶材料被制作成高可靠性、长寿命的产品并在机械、航空、汽车和电子电器等领域得到广泛的应用,橡胶产品其在现代工业系统中承担着绝缘、密封、连接、传动和隔振等功能,在现代工业中起着举足轻重的作用。然而,高温、氧气、紫外线、油污和臭氧等外界环境