基于多种数据源的中文知识图谱构建方法研究

来源 :华东理工大学 | 被引量 : 175次 | 上传用户:shilibin2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下,知识图谱首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作:1.充分利用互联网中的各类结构化或半结构化的信息,包括各种开放链接数据、在线百科、行业网站等,这些数据在覆盖范围方面有较大的优势,更新速度也比较快。本文描述了从这些结构化或半结构化的数据源中抽取和学习知识的方法,利用这些数据在广度上的优势保证所构建的知识图谱的质量。2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势,包括关系数据库中数据的准确性,互联网中的开放链接数据和领域公开知识库的广度优势,行业数据的深度优势等。提出一种基于多种数据源的知识图谱构建方法,该方法综合利用不同数据源的优势,相互辅助进行知识学习;同时利用多种数据源之间的冗余数据对知识图谱的准确性进行有效地保证。3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据或半结构化数据中得到的知识以及一些通用的启发式规则,自动标注语料。对于网页中文本内容的抽取,提出了一种基于启发式规则的网页正文内容抽取算法,自动识别网页中的正文内容。4.对于行业知识图谱的构建,研究如何利用行业内部的结构化数据,设计了一种易于使用的从关系型数据到知识图谱语义数据的映射语言。同时研究如何自动地从互联网中发现行业数据,包括开放的知识库和行业网站等,提出了一种从少数行业种子关键词开始自动发现互联网中行业数据源的算法。5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性,以“众包”的方式编辑和完善知识图谱。构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。最后,使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,064事实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%以上。同时,本文还构建了一个鱼类知识图谱,由于构建时利用了多个现存的最完整的数据源,因此其覆盖度非常高,包含了已知的32000余种鱼类相关知识。
其他文献
问题1:病毒性心肌炎临床上常以何种症状起病,表现如何? 病毒性心肌炎的临床表现轻重不一,有无任何临床表现隐性发病者,也有重症暴发起病者,还有猝死者。起病前常有呼吸道感染或消化
重症监护病房(ICU)的患者病情观察通常需要各临床及医技科室共同合作,临床药师在这一团队中也发挥着越来越重要的作用。本文结合在ICU开展临床药师培训带教工作的实践经验,就
在运动副零部件表面制备自润滑耐磨涂层则是降低摩擦减少磨损是最为经济和有效的方法之一,本文介绍了涂层的基本概念,以及软金属类粉末、金属化合物粉末、无机类粉末三种固体
目的探讨C-反应蛋白(CRP)及心肌酶测定在手足口病患者中的临床价值。方法运用酶联免疫吸附试验方法测定患者血清柯萨奇病毒A组16型(CAV16)和肠道病毒71型(EV71)IgM抗体,运用干化学法
目的探讨铜绿假单胞菌(PA)在医院内感染的临床特点及临床耐药性分析。方法回顾分析2009年6月至2010年6月铜绿假单胞菌院内感染临床资料。结果铜绿假单胞菌感染以呼吸道为主,主要
还觉得舞蹈类游戏无聊么?也许现在不会了了!《热舞派对》抛弃了传统舞蹈网游里模式化的脸型,玩家可以自由打扮自己,可以为游戏中的个人形象进行细致的化妆。调整身高。变换发型。甚至可以化出眼线、腮红、唇彩、瞳彩等等。你可以把自己打扮成为大牌明星,也可以把自己打扮成普通的学生或者任何你想的到的角色。受人瞩目的程度可是相当的高。从游戏的化妆系统可以看出,完美时空花费了巨大的时间和精力进行了游戏的创新。其中的化
目的探讨 Caspase-3在肝癌发生发展中的作用和意义。方法应用免疫组织化学SP法,对二乙基亚硝胺(DEN)诱发大鼠肝癌发生过程中 Caspase-3的表达进行了系统观察。结果①DEN诱发大鼠
目的通过对10年来引产的胎儿畸形及分娩的新生儿出生缺陷进行分析,为减少出生缺陷及降低新生儿死亡率提供参考。方法对孕13周后行中晚期引产的胎儿(死胎引产、治疗性引产)和产科