基于表示学习的信息抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jinsanshao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息抽取是自然语言处理任务中的一个重要研究方向,其目的是从自然语言文本中抽取实体,关系和事件等事实信息,并形成结构化的数据输出。信息抽取的一个核心问题是有效地表示事实信息背后的真实语义,其重要性主要体现为两个方面。一方面,抽取文本中的知识需要让机器理解人类语言的表达方式,学习序列化的文本表示是人类和机器之间信息传递的桥梁;另一方面,目前基于机器学习的方法在信息抽取的多个子任务上取得了非常出色的效果,而一个机器学习算法的性能很大程度上取决于特征表示的好坏。传统的信息抽取模型主要采用离散形式的符号表示作为特征输入,之后通过训练分类器获得相应结果。此类方法主要依赖于特征选取的好坏和前序自然语言处理工具输出结果的质量。近年来,分布特征表示方法广泛的应用于人工智能领域的不同任务中。与符号表示相比,分布表示不仅不依赖于任务相关的特定资源,并且可以更自然地与学习能力较强的深度神经网络模型相结合,并通过逐层抽象的表示学习来获得更适用于具体任务的高层语义表示。鉴于此,本课题在深度学习的大背景下,针对信息抽取中不同任务的不同特性研究相应的表示学习模型(注意力模型、深层记忆网络模型、长短期记忆网络、卷积神经网络、张量模型),从而提升信息抽取中各个任务的性能。  本课题根据信息抽取任务的不同子任务,将研究内容概括为以下四个方面:  1. 基于多层级跨语言注意力模型的命名实体识别。传统的实体识别任务中往往仅考虑自身语言所具有的语义信息,而实际上,不同语言间包含互补的实体识别线索,例如“美联储主席是本·伯南克”,该句中“本”很少在中文中用作姓名,而“本”在英文中的翻译“Ben”却经常被当做人名使用,若能将“本”的英文语义用于中文命名实体识别将有效提高其性能指标,针对这一问题,本文提出一种多层级注意力模型将辅助语言(英语)的语义引入到目标语言中,丰富目标语言语义表示。  2. 基于深层记忆网络的弱监督关系抽取。早期有学者提出了基于知识库回标的弱监督关系抽取(Distant Supervision)框架,该方法能够克服监督学习中人工标注数据的耗时耗力问题。但是在学习实体对(Entity Pair)表示的过程中没有对上下文的词汇进行区分,而仅通过卷积神经网络来获取类似于句子级的表示来代表实体对。本论文通过引入一个深层记忆力网络来学习上下文之间的区分程度,并根据这些不同权重去学习实体对表示,随后利用关系之间的依赖程度计算实体对在多个句子中针对某一具体关系的表示,并最终判断其关系类型。  3. 融合序列和局部特征表示的事件抽取。针对多语言事件抽取任务,本文发现部分语言缺少自然语言处理相关工具(句法分析)或性能相对较低,导致传统基于特征工程的方法很难直接使用并取得相对较好的效果。通过分析比对,本文发现序列和局部特定搭配是两种语言无关的信息,并且这两种信息对识别事件触发词非常关键,可以帮助其判断事件类型。基于这一发现,本文采用长短期记忆网络(LSTM)来学习序列信息并雇用卷机神经网络(CNN)来捕获局部搭配。实验结果显示,利用LSTM+CNN学到的隐层表示作为特征能够显著提升事件抽取性能。  4. 基于张量模型的实体和三元组消歧研究。为了能将之前学到的信息与现有知识库中的知识有效结合起来,本文提出了一类基于神经张量模型的消歧方法。在传统的实体消歧任务中,本文利用不同模型分别学习了实体的字符表示、语义表示和上下文表示,之后通过降维的张量模型去学习这三种信息的组合表示,将该表示与同样方法学到的实体候选表示进行相似度计算,并最终根据排序大小获得正确的实体消歧结果。特别地,本文还提出了面向关系三元组翻译的实体三元组消歧任务,利用张量模型去学习实体对间的关系表示,并与实体对本身的语义表示进行自适应组合,最终通过距离函数来找到正确的翻译实体对候选。通过实验对比,基于张量表示的模型在上述两个任务中,均获得了好于前人方法的结果。  综上所述,本文针对文本信息抽取中不同子任务所面临的不同挑战,深入研究了不同任务所需要解决的语义表示问题,以提高相应任务的性能。具体的在实体识别任务中学习跨语言的实体分布表示以提高当前语言的语义表示能力;在基于弱监督的关系抽取任务中学习不同上下文对实体对表示的相关程度;在事件抽取中分别学习文本序列和局部结构特征的语义表示;在消歧任务中学习融合不同类别信息的实体字串表示和基于关系类型的三元组表示。最后,希望本研究能够对文本信息抽取和自然语言处理领域的学者提供一些参考和帮助。
其他文献
随着中国经济的快速发展,特别是中国加入WTO以后,国际化的进程明显加速,如何提高中国最广大的中小企业群的信息化水平,更好的与国际接轨,在激烈的国际竞争中站稳脚跟,是目前
众所周知,互联网的发展极大地改变着人们的生活。人类社会信息化程度正在加速,数据逐渐成为驱动人们进行各项活动的中心,数据管理影响着人们工作生活的方方面面。文件系统作
随着计算机技术的广泛应用和房地产业的飞速发展,智能住宅已应运而生。本文在对智能小区的内涵、特征及国内外发展现状进行了简要阐述后,给出了小区智能化系统的组成框架。从构
该文讨论了数据融合系统中的辐射源识别、平台识别问题.近年来装备部队的传感器种类越来越多,使得多种传感器的数据融合技术的研究取得很快的发展.针对雷达辐射源特征,把人工
石油钻井投资大、风险高,其中钻具组合设计的好坏直接关系着施工的效益和成败.传统单机版的钻具组合设计软件,不支持群体设计,信息难于共享;而目前网络环境下的钻具组合设计
随着对多Agent系统研究的逐步深入,以及基于多Agent技术的应用系统不断出现,Agent及多Agent系统安全性日益成为一个重要的研究课题。本文的主要工作就是在分析了多Agent系统
在Internet发展的初期,网络应用主要集中在电子邮件、文件传输等传统应用,它们对服务质量QoS(Quality of Service)不敏感.随着Internet中各种技术的迅猛发展,一些新型实时多
随着网络技术的发展,Internet上出现了多种多样的应用,其中不少是高带宽的多媒体应用,这带来了带宽的急剧消耗和网络拥塞问题。组播技术正是为了解决这些而提出的,它有效提高带宽
设计模式是软件工程领域的一个热点研究方向。“四人帮”合著的《设计模式》出版,引起人们开始对软件模式的热情关注。《设计模式》帮助人们超越个别的概念化设计关系,抓住体
负荷预测技术是近年来各国潜心研究的一个新领域,它对于电力系统的规划与运行、获得最好的经济效益,有重大的意义。特别是电力科技与其它学科发展将会更加交融和促进。利用人工神经网络方法来对电力负荷进行短期预测是一种常用而且非常有效的一个方法。因此,与人工神经网络相关的一些预测算法就成为预测技术发展的一个重点。 本文首先对预测技术,人工神经网络及其应用于电力系统进行了一些理论基础的介绍和探讨工作,重点