论文部分内容阅读
知识图谱是一种特殊的语义网络,以结构化的形式表示现实世界中存在的各种实体及实体之间的语义关系,其基本构成单位是包含头实体、尾实体及对应语义关系等知识要素的知识三元组。知识图谱技术经历了若干个发展阶段,产生了大量令人瞩目的成果,被广泛应用于智能搜索、自动问答、情报分析、机器翻译及云机器人等领域。在知识图谱技术体系中,面向命名实体识别、关系抽取及知识图谱补全等关键任务的知识图谱构建技术是其中最基础、最重要的技术,已产生了大量研究成果。其中,命名实体识别任务的主要目标是识别出非结构化文本中的知识实体;关系抽取任务的主要目标是判别包含两个实体的文本语句中是否蕴含语义关系以及蕴含何种语义关系;而知识图谱补全任务又可分为实体预测任务和关系预测任务,主要目标是通过知识表示学习等技术发现或纠正知识图谱中实体、关系等知识要素缺失或错误的三元组,以提高知识图谱质量。互联网技术的飞速发展,给知识图谱领域带来了深刻的影响。互联网数据中,来源广泛、体量庞大且更新速度极快的非结构化文本数据占据了重要地位。为从互联网文本中抽取知识要素并完善知识图谱,学术界和产业界研究了一系列实体识别、关系抽取及知识表示学习等知识图谱构建技术。其中,早期的知识图谱构建技术严重依赖复杂精巧的人工特征工程,而且通常与具体的应用领域密切相关,存在通用性较差且构建的知识图谱质量不高等缺点。基于深度学习技术的知识图谱构建技术具备自动学习或抽取数据特征的能力,极大地缓解了早期方法中存在的各种弊端。但是,目前大多数基于深度学习技术的命名实体识别和关系抽取方法或模型都存在着对非结构化文本特征提取能力较弱等问题,而现有的知识表示学习方法或模型也存在着对实体之间语义关系影响考虑不足的问题。本文针对这些问题做了大量探索和研究,提出了一系列新的知识图谱构建技术。在命名实体识别领域,本文提出了一系列基于字符特征学习的人工神经网络命名实体识别模型,以应对现有命名实体识别模型在提取单词语义特征方面能力较弱的问题。这类模型以卷积神经网络和长短时记忆网络等深度学习方法为基础,分别从字符与单词两个不同粒度级别学习非结构化文本序列中蕴含的丰富语义特征,并使用条件随机场建模实体标签之间的语义关联。其中字符级特征学习是本文所提命名实体识别模型的研究重点,主要手段是在简单卷积神经网络或循环神经网络字符特征学习模块基础上以串联或堆叠等方式构造复杂字符特征学习模块,这些模块将从非结构化文本序列中学习到单词中包含的各类字符特征。基于CoNLL-2003英文数据集的实验结果显示,本文提出的命名实体识别模型在准确率、精确率、召回率及F值等度量指标上,全面优于以往的基于深度学习技术的命名实体识别模型,这表明本文提出的模型具有比以往模型更强的字符特征学习能力及命名实体识别能力。在关系抽取领域,本文针对现有关系抽取模型建模句子实例特征方面能力有限,以及未能高效考虑句子实例中存在多个语义关系的问题,提出了一种混合人工神经网络关系抽取模型。这种模型使用卷积神经网络从字符级提取单词特征,使用双向长短时记忆网络从单词级提取句子实例特征,并使用两级注意力机制建模单词及句子实例权重以降低非重要单词及错误标签语句的负面影响。这三种机制综合考虑了非结构化文本语句实例中的各类语义特征,对提升模型的实例学习能力具有重要作用。此外,该模型还使用基于列表排序机制的损失函数建模多语义关系问题,更高效地学习了语义关系标签之中包含的各类有效信息,是所有基于深度学习技术的关系抽取模型中对文本特征信息及语义关系标签信息利用最全面的模型。在ECML数据集上进行的实验表明,本文提出的关系抽取模型在不依赖外部文本描述性信息和其它语种数据支持的情况下,实体关系抽取能力超过了以往同类模型,在PR曲线图等评估指标上具有最佳表现。在知识图谱补全任务中,本文以知识表示学习能力最强的翻译模型为基础,针对以往知识表示学习模型对实体之间可能存在的多级间接关系考虑不足的问题,提出了一种包含多个人工神经网络实体关系学习模块的知识表示学习模型。这种模型以知识图谱中已有的三元组数据为基础,通过构造距离较长的实体关系路径,并使用以长短时记忆网络为核心的间接关系学习模块从这些路径数据中学习实体及实体关系的向量表示。此外,为建模实体之间存在的具有较大影响的直接语义关系,该模型还使用了一种在现有翻译模型中表现最好的以简单三层人工神经网络为基础的直接关系学习模块,该模块以列表排序损失为优化目标,具有较强的知识表示学习能力。基于FB15K数据集进行的知识图谱补全实验显示,本文提出的知识表示学习模型在实体预测任务中具有比同类模型更优的平均排名和命中率水平;而在关系预测任务中,该模型也依然具备最佳的平均排名水平,且在命中率方面也具有与以往最佳模型相近的表现。