基于文本特征学习的知识图谱构建技术研究

来源 :国防科技大学 | 被引量 : 3次 | 上传用户：flw00

【摘要】

：

知识图谱是一种特殊的语义网络,以结构化的形式表示现实世界中存在的各种实体及实体之间的语义关系,其基本构成单位是包含头实体、尾实体及对应语义关系等知识要素的知识三元

【作者】

：

曾平

【出处】

：

国防科技大学

【发表日期】

：

2018年01期

【关键词】

：

知识图谱知识图谱构建命名实体识别关系抽取知识表示学习知识图谱补全实体预测关系预测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

知识图谱是一种特殊的语义网络,以结构化的形式表示现实世界中存在的各种实体及实体之间的语义关系,其基本构成单位是包含头实体、尾实体及对应语义关系等知识要素的知识三元组。知识图谱技术经历了若干个发展阶段,产生了大量令人瞩目的成果,被广泛应用于智能搜索、自动问答、情报分析、机器翻译及云机器人等领域。在知识图谱技术体系中,面向命名实体识别、关系抽取及知识图谱补全等关键任务的知识图谱构建技术是其中最基础、最重要的技术,已产生了大量研究成果。其中,命名实体识别任务的主要目标是识别出非结构化文本中的知识实体;关系抽取任务的主要目标是判别包含两个实体的文本语句中是否蕴含语义关系以及蕴含何种语义关系;而知识图谱补全任务又可分为实体预测任务和关系预测任务,主要目标是通过知识表示学习等技术发现或纠正知识图谱中实体、关系等知识要素缺失或错误的三元组,以提高知识图谱质量。互联网技术的飞速发展,给知识图谱领域带来了深刻的影响。互联网数据中,来源广泛、体量庞大且更新速度极快的非结构化文本数据占据了重要地位。为从互联网文本中抽取知识要素并完善知识图谱,学术界和产业界研究了一系列实体识别、关系抽取及知识表示学习等知识图谱构建技术。其中,早期的知识图谱构建技术严重依赖复杂精巧的人工特征工程,而且通常与具体的应用领域密切相关,存在通用性较差且构建的知识图谱质量不高等缺点。基于深度学习技术的知识图谱构建技术具备自动学习或抽取数据特征的能力,极大地缓解了早期方法中存在的各种弊端。但是,目前大多数基于深度学习技术的命名实体识别和关系抽取方法或模型都存在着对非结构化文本特征提取能力较弱等问题,而现有的知识表示学习方法或模型也存在着对实体之间语义关系影响考虑不足的问题。本文针对这些问题做了大量探索和研究,提出了一系列新的知识图谱构建技术。在命名实体识别领域,本文提出了一系列基于字符特征学习的人工神经网络命名实体识别模型,以应对现有命名实体识别模型在提取单词语义特征方面能力较弱的问题。这类模型以卷积神经网络和长短时记忆网络等深度学习方法为基础,分别从字符与单词两个不同粒度级别学习非结构化文本序列中蕴含的丰富语义特征,并使用条件随机场建模实体标签之间的语义关联。其中字符级特征学习是本文所提命名实体识别模型的研究重点,主要手段是在简单卷积神经网络或循环神经网络字符特征学习模块基础上以串联或堆叠等方式构造复杂字符特征学习模块,这些模块将从非结构化文本序列中学习到单词中包含的各类字符特征。基于CoNLL-2003英文数据集的实验结果显示,本文提出的命名实体识别模型在准确率、精确率、召回率及F值等度量指标上,全面优于以往的基于深度学习技术的命名实体识别模型,这表明本文提出的模型具有比以往模型更强的字符特征学习能力及命名实体识别能力。在关系抽取领域,本文针对现有关系抽取模型建模句子实例特征方面能力有限,以及未能高效考虑句子实例中存在多个语义关系的问题,提出了一种混合人工神经网络关系抽取模型。这种模型使用卷积神经网络从字符级提取单词特征,使用双向长短时记忆网络从单词级提取句子实例特征,并使用两级注意力机制建模单词及句子实例权重以降低非重要单词及错误标签语句的负面影响。这三种机制综合考虑了非结构化文本语句实例中的各类语义特征,对提升模型的实例学习能力具有重要作用。此外,该模型还使用基于列表排序机制的损失函数建模多语义关系问题,更高效地学习了语义关系标签之中包含的各类有效信息,是所有基于深度学习技术的关系抽取模型中对文本特征信息及语义关系标签信息利用最全面的模型。在ECML数据集上进行的实验表明,本文提出的关系抽取模型在不依赖外部文本描述性信息和其它语种数据支持的情况下,实体关系抽取能力超过了以往同类模型,在PR曲线图等评估指标上具有最佳表现。在知识图谱补全任务中,本文以知识表示学习能力最强的翻译模型为基础,针对以往知识表示学习模型对实体之间可能存在的多级间接关系考虑不足的问题,提出了一种包含多个人工神经网络实体关系学习模块的知识表示学习模型。这种模型以知识图谱中已有的三元组数据为基础,通过构造距离较长的实体关系路径,并使用以长短时记忆网络为核心的间接关系学习模块从这些路径数据中学习实体及实体关系的向量表示。此外,为建模实体之间存在的具有较大影响的直接语义关系,该模型还使用了一种在现有翻译模型中表现最好的以简单三层人工神经网络为基础的直接关系学习模块,该模块以列表排序损失为优化目标,具有较强的知识表示学习能力。基于FB15K数据集进行的知识图谱补全实验显示,本文提出的知识表示学习模型在实体预测任务中具有比同类模型更优的平均排名和命中率水平;而在关系预测任务中,该模型也依然具备最佳的平均排名水平,且在命中率方面也具有与以往最佳模型相近的表现。

其他文献

基于深度学习的图像理解关键问题及实现技术研究

当前,以移动互联网、物联网和智能可移动设备等为代表的计算机和信息技术,在短短几年之中已经对人们的生产和生活方式产生了翻天覆地的变化,人类已经进入了大数据时代和智能

学位

图像理解深度神经网络边缘计算多核加速向量化

用GC法测定克利贝特中5种残留溶剂的效果分析

目的：探讨用GC（气相色谱分析）法测定克利贝特中5种残留溶剂的效果。方法：采用毛细管柱气相色谱法,将Agilent DB-624作为毛细管柱,将氮气设为载气,使用的检测仪器为氢火焰离子化检

期刊

气相色谱分析克利贝特有机溶剂残留

汇市多变幻避险各不同

<正>面对企业不同的汇率避险需求,银行应提供个性化的服务。2015年"8·11"汇改之后,人民币进入了双向波动通道。中资企业在"走出去"步伐不断加快的同时,经营环境的不确定性也

期刊

外汇风险双向波动汇率波动汇兑损益交叉汇率结售汇业务美元升值人民币汇率汇兑损失

空间机械臂抓取过程半物理仿真系统关键技术研究

空间机械臂抓取过程半物理(HIL)仿真是地面模拟空间机械臂抓取过程,研究不同形式机械臂的抓取特性和对接初始条件等问题的重要手段。空间机械臂抓取过程半物理仿真系统由对接

学位

机械臂抓取半物理仿真动态响应延迟控制策略力和力矩补偿

增强企业竞争力——医药行业信息化

医药行业被称为永远的"朝阳行业".在人口众多、经济高速发展的中国,医药行业前景更是一片光明.根据国家经贸委"十五"规划数据,预计我国药品需求年平均增长率可达12%;到2005年

期刊

企业竞争力医药行业信息化中国流通体制

基于文本特征学习的知识图谱构建技术研究

其他学术论文