论文部分内容阅读
知识表达与推理是人工智能的领域之一,旨在将现实世界中的信息表达为一种计算机系统可以利用并解决复杂问题的形式。知识表达主要研究如何表达知识以简洁地设计和构造系统解决复杂问题,而知识推理则寻求知识之间的逻辑关系以自动化地进行各种推理与论证。在人工智能的研究中,这两个过程是相辅相成、互相促进的。模态、形式多种多样的互联网知识数据,可以大致分为静态、结构化数据与动态、非结构化数据两种类型。对于静态、结构化数据,知识表达的主要目的是将符号化表示的、不可计算的数据转化为数值表示的、可计算的形式,知识推理的主要目的是补足数据集中不完备的部分;而对动态、非结构化数据,知识表达的主要目的是建立数据库内的结构化信息,而知识推理的主要目的在于从学习数据之间的关联模式,从数据集中提取重要或有趣的信息。基于以上观察,本文旨在对两类互联网数据扩展知识表达与知识推理的算法研究,以实现对互联网知识数据的有效利用。总之,本文围绕互联网数据的知识表达与推理问题展开了一系列相关研究并取得了以下成果:对于静态、结构化数据,本文重点研究了知识图谱的嵌入工作,提出了一种由知识图谱嵌入衍生出的双线性学习框架。该框架基于最大边缘的多关系排序模型,以同时解决实体嵌入与实体之间的关系预测这两个任务的方式建立了联合优化模型。该模型具有模拟知识图谱中各种关系的内在相关性以及表达了知识图谱中的多关系结构的能力。为了更好地表达和推理知识图谱中的高阶语义信息,本文通过对实体嵌入与关系嵌入这两个不同但相关的嵌入问题进行联合优化的方式,利用知识库中的高阶上下文信息实现各个实体和各种关系的显性表达,将知识库的内在拓扑结构形象地表达在嵌入空间中。对于动态、非结构化数据,本文重点研究了具有代表性的新闻文档演化跟踪问题,提出了一种上下文相关的新闻知识发现方法。该方法使用了基于新闻文档时序连接的稠密子图学习技术,自适应地顺着时间维度构造文档之间的连接网络。通过充分利用新闻连接结构信息的稠密子图学习方法,可以有效地发现新闻间的事件模式。基于此方法构成的连接网络,可以实现快速而准确的新闻文档推理。