基于文本特征学习的知识图谱构建技术研究

来源 :国防科技大学 | 被引量 : 3次 | 上传用户:flw00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是一种特殊的语义网络,以结构化的形式表示现实世界中存在的各种实体及实体之间的语义关系,其基本构成单位是包含头实体、尾实体及对应语义关系等知识要素的知识三元组。知识图谱技术经历了若干个发展阶段,产生了大量令人瞩目的成果,被广泛应用于智能搜索、自动问答、情报分析、机器翻译及云机器人等领域。在知识图谱技术体系中,面向命名实体识别、关系抽取及知识图谱补全等关键任务的知识图谱构建技术是其中最基础、最重要的技术,已产生了大量研究成果。其中,命名实体识别任务的主要目标是识别出非结构化文本中的知识实体;关系抽取任务的主要目标是判别包含两个实体的文本语句中是否蕴含语义关系以及蕴含何种语义关系;而知识图谱补全任务又可分为实体预测任务和关系预测任务,主要目标是通过知识表示学习等技术发现或纠正知识图谱中实体、关系等知识要素缺失或错误的三元组,以提高知识图谱质量。互联网技术的飞速发展,给知识图谱领域带来了深刻的影响。互联网数据中,来源广泛、体量庞大且更新速度极快的非结构化文本数据占据了重要地位。为从互联网文本中抽取知识要素并完善知识图谱,学术界和产业界研究了一系列实体识别、关系抽取及知识表示学习等知识图谱构建技术。其中,早期的知识图谱构建技术严重依赖复杂精巧的人工特征工程,而且通常与具体的应用领域密切相关,存在通用性较差且构建的知识图谱质量不高等缺点。基于深度学习技术的知识图谱构建技术具备自动学习或抽取数据特征的能力,极大地缓解了早期方法中存在的各种弊端。但是,目前大多数基于深度学习技术的命名实体识别和关系抽取方法或模型都存在着对非结构化文本特征提取能力较弱等问题,而现有的知识表示学习方法或模型也存在着对实体之间语义关系影响考虑不足的问题。本文针对这些问题做了大量探索和研究,提出了一系列新的知识图谱构建技术。在命名实体识别领域,本文提出了一系列基于字符特征学习的人工神经网络命名实体识别模型,以应对现有命名实体识别模型在提取单词语义特征方面能力较弱的问题。这类模型以卷积神经网络和长短时记忆网络等深度学习方法为基础,分别从字符与单词两个不同粒度级别学习非结构化文本序列中蕴含的丰富语义特征,并使用条件随机场建模实体标签之间的语义关联。其中字符级特征学习是本文所提命名实体识别模型的研究重点,主要手段是在简单卷积神经网络或循环神经网络字符特征学习模块基础上以串联或堆叠等方式构造复杂字符特征学习模块,这些模块将从非结构化文本序列中学习到单词中包含的各类字符特征。基于CoNLL-2003英文数据集的实验结果显示,本文提出的命名实体识别模型在准确率、精确率、召回率及F值等度量指标上,全面优于以往的基于深度学习技术的命名实体识别模型,这表明本文提出的模型具有比以往模型更强的字符特征学习能力及命名实体识别能力。在关系抽取领域,本文针对现有关系抽取模型建模句子实例特征方面能力有限,以及未能高效考虑句子实例中存在多个语义关系的问题,提出了一种混合人工神经网络关系抽取模型。这种模型使用卷积神经网络从字符级提取单词特征,使用双向长短时记忆网络从单词级提取句子实例特征,并使用两级注意力机制建模单词及句子实例权重以降低非重要单词及错误标签语句的负面影响。这三种机制综合考虑了非结构化文本语句实例中的各类语义特征,对提升模型的实例学习能力具有重要作用。此外,该模型还使用基于列表排序机制的损失函数建模多语义关系问题,更高效地学习了语义关系标签之中包含的各类有效信息,是所有基于深度学习技术的关系抽取模型中对文本特征信息及语义关系标签信息利用最全面的模型。在ECML数据集上进行的实验表明,本文提出的关系抽取模型在不依赖外部文本描述性信息和其它语种数据支持的情况下,实体关系抽取能力超过了以往同类模型,在PR曲线图等评估指标上具有最佳表现。在知识图谱补全任务中,本文以知识表示学习能力最强的翻译模型为基础,针对以往知识表示学习模型对实体之间可能存在的多级间接关系考虑不足的问题,提出了一种包含多个人工神经网络实体关系学习模块的知识表示学习模型。这种模型以知识图谱中已有的三元组数据为基础,通过构造距离较长的实体关系路径,并使用以长短时记忆网络为核心的间接关系学习模块从这些路径数据中学习实体及实体关系的向量表示。此外,为建模实体之间存在的具有较大影响的直接语义关系,该模型还使用了一种在现有翻译模型中表现最好的以简单三层人工神经网络为基础的直接关系学习模块,该模块以列表排序损失为优化目标,具有较强的知识表示学习能力。基于FB15K数据集进行的知识图谱补全实验显示,本文提出的知识表示学习模型在实体预测任务中具有比同类模型更优的平均排名和命中率水平;而在关系预测任务中,该模型也依然具备最佳的平均排名水平,且在命中率方面也具有与以往最佳模型相近的表现。
其他文献
当前,以移动互联网、物联网和智能可移动设备等为代表的计算机和信息技术,在短短几年之中已经对人们的生产和生活方式产生了翻天覆地的变化,人类已经进入了大数据时代和智能
在农村调查中,我发现农村文化事业目前存在"三多三少"现象:一是个体书摊业务增多,国营图书销售点和集体文化室活动减少.全区已登记发证的个体书摊达970个,生意兴隆,而全区700
放牧对羊草草地植被及其土壤环境的影响是放牧演替系列上植物种群规律分布的重要原因。本文从由放牧引起的植被及主要土壤因子变化梯度入手,研究羊草、五脉山黧豆、寸草苔等8
赣府发[1989]28号 1989年3月30日现将《江西省一九八九年经济体制改革方案》印发给你们,请认真组织实施。江西省一九八九年经济体制改革方案根据党的十三届三中全会精神,我省
目的:探讨用GC(气相色谱分析)法测定克利贝特中5种残留溶剂的效果。方法:采用毛细管柱气相色谱法,将Agilent DB-624作为毛细管柱,将氮气设为载气,使用的检测仪器为氢火焰离子化检
<正>面对企业不同的汇率避险需求,银行应提供个性化的服务。2015年"8·11"汇改之后,人民币进入了双向波动通道。中资企业在"走出去"步伐不断加快的同时,经营环境的不确定性也
本文介绍了我们在原已开设的“电工技术”、“模拟电子技术”、“数字电子技术”三门电类课程的基础上,对机电类专业开设实用型和技能型的电类选修课程的实验教学内容、实验教
空间机械臂抓取过程半物理(HIL)仿真是地面模拟空间机械臂抓取过程,研究不同形式机械臂的抓取特性和对接初始条件等问题的重要手段。空间机械臂抓取过程半物理仿真系统由对接
医药行业被称为永远的"朝阳行业".在人口众多、经济高速发展的中国,医药行业前景更是一片光明.根据国家经贸委"十五"规划数据,预计我国药品需求年平均增长率可达12%;到2005年
拟电子技术课程中是一个重点,也是一个难点。传统的反馈分析方法内容繁琐难懂,学生理解十分困难,多数偏于死记硬背,教学效果不好。造成这一重要内容教学失误的主要原因,在于