英语文本语义特征提取与理解方法关键问题的研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:wyp345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本语义语义特征提取是众多自然语言处理应用的基础。它的目的是从非结构化的文本中提取出丰富的语义信息,以便于计算机的进一步计算和处理。文本语义语义特征提取为文本理解提供了基础,本文通过挖掘文本语义特征中深层语义信息,构建丰富的文本语义特征信息,并基于这些语义特征信息设计文本理解方法。当前,大多数文本语义特征提取方法通过利用神经网络语言模型来生成文本表示。这些模型采用统计文本中单词的词频或概率分布,将单词及其词频或概率分布表示成语义空间的形式来构建出文本语义表示模型。但是基于这些传统的文本语义表示模型来文本语义理解时,看似存在语义相似度的单词之间,从不同的角度理解会存在不同的意思。同时,英语文本中的单词语义由于受到特定的上下文语境影响,要准确的理解它们存在着较大的挑战性。传统的英语文本语义理解方法没有基于文本概念语义特征去设计其语义理解方法,在理解英语文本的深层次语义时存在准确性差的问题。本文从两个部分来研究,首先,从当前文本语义特征提取的基本方法和理论入手,提出了概念化的混合特征关键词提取方法,着重分析了概念语义特征提取中,文本关键术语及其上下文概念之间的关系,并挖掘术语及其概念的属性关系。同时,在挖掘文本关键术语词的基础上,对术语词在文本中的语义关系进行分类和提取,并结合关键术语、概念以及它们之间的语义关系构建丰富的文本语义特征表示。在第二部分,结合先前部分提取的文本语义特征,设计文本语义理解方法,在理解方法上,着重强调了针对特定的语义理解任务设计理解模型,并结合注意力机制对模型进行改进,最后在相关数据集上验证模型的有效性。具体来说,本文的主要工作可以总结为以下几个方面:首先,本文研究了基于概念的混合特征关键词提取方法,着重研究了英语文本中关键词或短语及其概念的提取方法。提出结合Text Rank算法的文本关键词提取方法,该方法通过对文本词向量和段落向量联合训练的方式获取文本表示,引入Text Rank算法对关键词或短语节点进行类聚,通过节点之间的跳转概率矩阵学习节点权重得分,最后通过打分函数生成关键词或短语得分排序,结果显示该方法在几种公开数据集上以相对低的计算复杂度,获取较准确的关键词或短语。同时,我们在短文本数据集,如Twitter数据集,以及长文本数据集,如南方周末文章数据集上分别进行测试,实验结果表明我们的方法在短文本关键词或短语的提取上取得了较好的准确性,同时在长文本关键词的提取上具有竞争性。其次,本文介绍了一种基于词嵌入和知识库注意力的双卷积神经网络的文本语义依存关系提取模型。该模型通过引入知识库注意力,丰富了语义监督信息,同时,本文使用两个独立的卷积神经网络分别对文本中实体词向量和知识库中获取的监督信息进行学习,并将两个卷积神经网络的隐藏层输出在全连接层进行拼接。通过这一过程,模型不仅能够获取实体表示,而且依靠丰富的知识库背景知识获取更加全面的实体间关系表示。通过跟现有的相关方法在公开数据集上进行实验比较,我们的模型在语义依存关系提取任务和句子关系分类任务上取得较好的表现。第三,本文提出了结合文本概念化和注意力嵌入的文本理解方法。针对英语短文由于词汇量少,语义较为稀疏的问题,该方法基于知识库中概念化的文本表示构建注意力编码器。具体来讲,对于每一个英语短文,通过提取关键实体词并进行概念化,概念化是通过实体词及其所属概念的共现来实现,同时依赖知识库获取与文本概念相关的其他概念和关系,并将概念映射到低维向量空间来获取概念化空间编码。最终,联合概念空间和注意力编码空间设计文本理解方法。我们分别在New York Times和Twitter数据集进行信息检索实验任务,结果表现优于当前方法。同时,我们设计了三种评价指标分别在WWW2015和Coling2016数据集上进行观点检索实验,各项指标都具有较好的表现。第四,本文提出了多粒度分层特征的问答理解方法。该方法将问答理解中文本和问题的语义特征的提取分成两个部分,分别为传统的语言模型和深度匹配模型,并将这两个部分所提取的语义特征结合构建相似度矩阵,同时,设计了三种不同的模型对相似度矩阵进行学习,分别为相似度矩阵特征连接,相似度矩阵独立学习和相似度矩阵问题学习。该方法从多个角度学习到更多文本特征,在问答理解任务中取得较好的效果。通过对Wiki QA公开数据集的实验测试,增加多粒度层次的特征学习方法,提高了问答理解任务中答案的准确率。
其他文献
动力电池是新能源电动汽车的能量来源,电池管理系统对动力电池进行安全有效管理,是电动汽车行业发展的关键技术。为了使动力电池满足实际复杂运行工况下电动汽车对续航里程、安全行驶的要求,研究动力电池的模型和荷电状态(SOC)关键估计具有重要理论和工程应用意义。论文针对典型磷酸铁锂动力电池的模型和SOC状态估计问题展开研究,主要工作如下:(1)搭建动力电池测试平台,设计动力电池特性测试方案。利用Arbin
相控阵天线具有诸多优点,但由于它的波束方向图只依赖于角度,与距离无关,使得其在目标检测和参数获取方面还存在一些问题。如无法有效地抑制距离依赖的干扰和杂波、无法直接从波束方向图对目标进行方位-距离定位和成像,需要借助宽带信号获取距离向信息。频率分集阵列(Frequency Diverse Array,FDA)可以产生距离-角度依赖的波束方向图,这使其在抑制距离依赖的干扰和杂波、联合距离-方位定位和成
传感器作为测量仪器中的关键组成部分,在医疗检测和环境监控领域中发挥重要作用。本文围绕糖尿病血糖检测和环境保护中汽车尾气排放监测,针对无酶葡萄糖检测灵敏度及选择性、钙钛矿氧化物薄膜氧传感机理,开展了如下研究:金属有机框架(Metal-organic frameworks,MOFs)是由金属离子和有机配体自组装而成的一类结晶材料。近年来,以MOFs为前躯体衍生的金属氧化物材料由于具有优异的电化学性能而
物联网、云计算、信息物理系统等先进技术的快速发展催生了许多先进的制造模式,云制造便是其一。通过将传统工业系统与新兴信息技术进行深度融合,云制造能够实现多制造方之间的资源整合、数据共享、业务协同,达到提升产能、增强创新能力等目的。云计算、物联网等技术的应用,使得云制造具备灵活高效、开放互联等优势,但同时也为数据窃取、非授权访问等信息安全问题的频繁发生提供了条件。密文策略属性基加密(CP-ABE)技术
学位
针对水下航行器与浮、潜标之间短距离大容量数据传输问题,以光成像MIMO技术为基础,根据海水中可见光的传输特性及LED器件特性,研究了成像MIMO-ACO-OFDM通信技术。本文对水下光LOS链路信道特征基于蒙特卡罗方法进行了分析,进一步对成像MIMO信道空间相关性进行了建模分析,并分析了空间相关性对信道容量和误码率性能影响,研究了降低空间相关性技术,还提出了LED调制中抑制削波畸变和非线性失真方法
建立快捷、绿色、高效和安全的智能交通系统是世界各国不懈努力的目标。近年来,基于蜂窝网的车载通信技术(Cellular Vehicle-to-Everything,C-V2X)是智能交通系统中实现环境感知、信息交互和协同控制的重要关键技术。C-V2X车载通信系统中车载用户通过复用蜂窝用户的频谱资源,建立车与车(Vehicle to Vehicle,V2V)、车与道路设施间(Vehicle to In
学位
学位
学位