【摘 要】
:
随着网络中数据信息的快速增长,知识库的规模也与日俱增。由于知识库中数据量的庞大规模以及复杂结构的限制,普通用户很难快速有效地获取需要的信息。因此,基于知识库的问答,运用自然语言处理技术,对于用户提出的自然语言问题,自动利用知识库存储的三元组信息(即知识)进行解答,显得尤为迫切和重要。目前,基于知识库的问答研究引起了国内外学者的广泛关注。根据回答问题所需要的三元组的数量可以将知识库问答分为两类:单关
论文部分内容阅读
随着网络中数据信息的快速增长,知识库的规模也与日俱增。由于知识库中数据量的庞大规模以及复杂结构的限制,普通用户很难快速有效地获取需要的信息。因此,基于知识库的问答,运用自然语言处理技术,对于用户提出的自然语言问题,自动利用知识库存储的三元组信息(即知识)进行解答,显得尤为迫切和重要。目前,基于知识库的问答研究引起了国内外学者的广泛关注。根据回答问题所需要的三元组的数量可以将知识库问答分为两类:单关系知识库问答和多关系知识库问答。近些年来,随着深度学习的快速发展,大量的工作利用深度学习强大的表示学习能力在知识库问答研究中取得了一定的进展,然而知识库问答依旧存在若干问题亟待解决。针对单关系知识库问答而言,它主要面临着以下挑战:(1)神经网络虽然拥有优秀的特征学习能力,但是由于神经网络缺乏可解释性,用户无法估计模型预测结果的可信度,从而会给知识库问答系统在实际应用中带来安全隐患;(2)现有的基于端到端的知识库问答方法中问题与实体和关系的匹配过程互相独立,忽略了知识库中实体和关系之间的依赖关系。针对多关系知识库问答而言,关系检测,作为多关系知识库问答的核心任务,往往被视为一个单标记学习问题,忽略了一些复杂问题对应多个关系路径的现实。针对以上不足,本文的主要工作包括如下:1)本文提出了一种基于贝叶斯神经网络的端到端的知识库问答模型。它一方面能够同时预测问题对应的实体和关系,并考虑知识库中实体和关系之间的相关性,另一方面它在预测实体和关系的同时,能够估计预测过程中的数据和模型不确定性。与现有的基于端到端的知识库问答方法相比,它在Simple Question数据集上取得了更好的效果。此外不确定性被用来进行了误分类检测实验和误差原因检测实验,实验结果表明了提出的不确定性度量的有效性。2)本文首次将知识库关系检测任务形式化为多标记多跳关系生成问题,并提出了基于序列到序列框架的层次序列关系生成模型(HSRGM)。该模型设计了一种新的解码器关系生成方式,能够分层次的进行关系预测,并考虑了关系之间的相关性。在Freebase QA数据集上的实验结果表明了该模型的有效性。本文共分为五章,第一章阐述了研究背景和研究意义,描述了相关工作以及研究动机和内容。第二章介绍了相关知识库,并阐述了论文所涉及的相关技术。第三章介绍了基于贝叶斯端到端框架的简单知识库问答模型,该模型在预测答案的同时给出了预测时模型和数据产生的不确定性,为用户提供了判断依据。第四章介绍了基于层次序列生成模型的面向知识库问答的多标记多跳关系预测方法及相关实验。第五章总结了全文的工作,并对未来工作进行了展望。
其他文献
冷轧管性能优越、精度高,广泛应用于国民经济许多领域。新型冷轧管机采用三个直流电机实现轧辊和回转、送进驱动,其性能和运行状态直接决定了冷轧管的质量。已有的冷轧管机现场监控器通过采集驱动电机的电压电流信号实现了对生产过程中冷轧管机运行状态的监控,并能够连接上位机实现监控数据存贮和管理。随着新型冷轧管机的技术升级和普及应用,轧管厂和制造商在设备安装调试、使用维护、故障维修、质量跟踪等方面都面临挑战,需要
类人机器人是智能机器人领域的研究热点,受到机器人学界的广泛关注。本课题针对Robo Cup类人足球机器人Kid Size项目,在东南大学SEU_Uni Robot团队历年研究成果基础上,优化设计和实现完整的类人机器人运动控制系统,以提升机器人运动性能。本文研究内容主要包括:搭建机器人的软硬件系统,采用两层控制器的控制架构,完成舵机执行器、传感器的选型,使用MCU作为机器人下层控制器,完成定时任务和
在传统多标记学习中,每个对象由单个特征向量构成的示例表示,学习系统的目标是构建由示例空间至标记空间幂空间的映射。一般而言,对象的特征表示对于学习系统的泛化性能有着重要影响。如何突破传统的单特征向量表示,提升多标记学习系统泛化性能,值得进一步深入研究。本文围绕多标记特征表示开展研究,主要做了如下两方面的工作:一方面,“类属特征(label-specific features)”表示通过为每个标记构造
零样本学习作为机器学习中的一项新的挑战,越来越多的研究者将注意力放在了这一项新的任务上。零样本学习指的是利用类别辅助信息,在没有对应类别训练样本的情况下,对该类别的样本做出正确预测的任务。零样本学习可以根据测试集中样本的类别分为传统零样本学习和广义零样本学习,也可以根据使用数据的不同,分为类别归纳示例归纳式、类别直推示例归纳式、类别直推示例直推式三种。在先前类别归纳示例归纳式的零样本学习研究中,对
图像内容理解是计算机视觉领域重要的研究目标。分割,尤以细粒度图像分割,是实现图像内容理解的一个重要途径。全景分割,作为细粒度图像分割任务中的一种,可以帮助计算机更全面的理解图像中每一类物体的位置、形状等信息,它的有效解决,将有助于自动驾驶、行为识别等多个问题的发展。本文主要着眼于神经网络建模、针对全景分割问题的计算机视觉方法研究。更具体来说,是通过对数字图像进行像素点级别的分类实现对图像中物体的识
随着社会与现代科技的发展,人们将面临着越来越多的数据,传统的机器学习方法计算开销大,通常难以应用到大规模数据的学习问题上。而当面对大规模学习问题时,在线学习往往是一种易于应用且高效的方法。现有的在线学习方法大致可分为线性模型和核化模型两类。其中,线性模型的计算开销小,所以计算速度快。但当面临复杂数据时,这类模型在精度上很可能表现不佳。后来有研究者引入核技巧(kernel trick),提出了核化模
多标记分类研究中,一个示例(由属性/特征向量表示)会关联多个类别标记,利用多标记数据可以构造一个从示例映射到类别标记集合的分类模型,这样的学习框架适用于多义性对象建模。传统的多标记分类任务中,通常假设实例对应的标记集合是完全准确的。然而,在某些复杂场景下(如网络图片标注),与示例关联的候选标记集合往往含有噪声,需要对含噪多标记分类问题进行研究。本文针对多标记分类中噪声标记问题与多标记分类中特征构造
两阶段学习算法是将一些传统机器学习算法由原始的一步解决问题的过程拆分为两个不同的学习阶段,而问题求解的本质保持不变的学习框架。最初,两阶段学习算法的引入是用来解决核Fisher判别分析(Kernel Fisher Discriminant Analysis,KFDA)在处理高维小样本数据时所面临的病态问题。具体地,两阶段核Fisher判别分析(Two-phase Kernel Fisher Dis
在标准偏标记学习框架下,每个对象由单个特征向量进行刻画,同时与多个候选标记相关联,其中仅有一个未知的真实标记。另一方面,在真实世界问题中对象的性质往往更为复杂,每个对象拥有多源的特征表示并且未知的真实标记也并非唯一。一般而言,有效的特征表示能显著提升学习系统的泛化能力,而偏标记特征表示任务由于标记的真实信息未知而具有较高挑战性。本文针对偏标记场景下的特征表示及融合展开研究,主要包括以下两方面工作:
医学图像配准是医学图像处理研究领域的一个重要任务和技术难点,对于图像融合、检测肿瘤生长等临床工作有重要意义。图像配准旨在寻找将一幅图像映射到另一幅图像的空间变换。传统的配准方法迭代优化每一对图像的目标函数求解空间变换,存在配准时间长、计算量大的问题。近年来,随着深度学习在医学图像研究领域的广泛应用,基于深度学习的图像配准成为极具前景的研究方向。基于深度学习的有监督配准方法虽然在配准速度与精度方面都