带有先验信息的注意力机制在自然语言处理中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:Truth_Tiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习等算法技术的突破和数据信息环境的不断完善,人工智能开始进入实用阶段,能够更有效地解决许多复杂问题,成为了各个国家重点关注和发展的领域。自然语言处理作为人工智能领域的一个分支,其研究方法也从传统的基于统计的方法演化为各种基于深度学习的方法,在词向量表示、机器翻译、语音识别等任务上都取得了重要成果。
  由于自然语言本身为序列结构,所以在用深度学习方法对自然语言进行建模时,通常釆用的是可以将输入序列映射为输出序列的循环神经网络。考虑到自然语言内部包含较为复杂的句法结构,以及循环神经网络在长句处理方面性能会下降等因素,学者们在模型中引入了注意力机制,在一定程度上改善了上述问题。
  现有的注意力机制仍然存在一些不足,比如无法显式获取句子中巳知的句法结构信息,输出的概率可解释性不强等。针对以上问题,本文将对循环神经网络模型中的注意力机制进行改进,首先通过句法分析等手段将自然语言序列中的先验信息构建为图模型,然后在稀疏映射中引入图结构正则化项,构建出一种用于替换传统注意力机制中softmax函数的新函数netmax。netmax函数在具有softmax函数良好性质的同时,还包含了以图结构形式存储的先验信息,这可以为深度学习模型提供更加丰富的输入信息来进行训练,进而提升模型的性能,并且使得关联程度较大的输入样本对应的输入值更为接近,让注意力机制的输出更加容易被理解。除此之外,本文釆用的改进方法还可以使注意力机制的输出变得稀疏,这进一步提高了模型的可解释性。
  为了对提出的方法进行有效的验证,本文还包含两个实验,分别是基于逻辑回归模型的文本分类实验和基于深度学习模型的神经机器翻译实验。实验首先证明了引入先验信息这一思想在文本分类任务中的有效性,然后证实了改进的注意力机制的确可以在机器翻译任务中有效提升模型的性能。
  本文的创新之处主要在于通过将深度学习模型与统计学知识相结合的手段,提出了可以被广泛使用在注意力机制中的权重计算方法,为自然语言处理任务中的深度学习模型打开了一个引入先验信息的渠道。但由于引入的先验信息是该方法的关键,所以对先验信息的选择也成为模型能否达到预期效果的重要因素,这也将成为后续有待进一步研究的问题。
其他文献
政府规模是一个与国家的经济增长、社会发展和行政管理效率息息相关的问题,它受到诸多因素的影响。当前,政府规模扩张已成为世界各国行政发展的普遍趋势,在这一情况下,如何把政府规模控制在适度的范围,成了各国行政改革追求的目标之一。在国内,这一问题也是历次行政改革的重要内容之一,同时也是行政改革理论研究和实践的难点。虽然理论界对市场经济的政府作用和职能已经形成共识,但对如何界定政府的适度规模始终存在诸多看法
学位
我国长期以来的分割城乡的社会政策,使得我国的社会保障体系形成二元化结构,农村地区长期以来社会保障是缺位的。随着我国社会保障制度的变革,我国农村社会保障存在的问题越来越紧迫的需要解决。为了推进我国的经济发展,实现城乡一元化,为了保护农村人口数量庞大的弱势群体的基本权益,我国必须建立并完善农村社会保障体系。  本文在阐述了农村社会保障体系的基本概念、相关理论、研究基础以及我国农村社会保障建国以来的历史
学位
本文的论述分为三个部分,第一部分介绍了企业年金制度的基本知识;第二部分系统地考察了香港强积金的制度设计及其运行过程;第三部分是以强积金为参考对象,全面阐释了我国企业年金的发展策略。  我国在1991年按照“三支柱”模式建立了由基本养老保险、企业补充养老保险和个人储蓄养老三个支柱所构成的多层次的养老保险体系。企业年金,是指由企业根据自身经济实力,在国家规定的实施政策和实施条件下为本企业职工所建立的一
学位
随着我国市场经济体制的建立,以及老龄化社会的提早到来,我国原有的养老保障制度已经不能适应社会发展的需要。我国政府从80年代初开始对原制度进行了一系列的改革,决定将现收现付制的养老制度过渡为以部分积累为特征的社会统筹和个人账户相结合的养老制度。新旧制度在转换过程中存在着巨额转制成本的问题,转制成本能否得到妥善解决,关系到新旧制度能否实苏刁l匝利过渡。以转一制成本为首的支付问题成为当前社会保障制度改革
近两年,中小学生人身伤害法律救济问题在我国教育界、法学界引起了前所未有的关注,但由于其研究历史较短,我国中小学生人身伤害法律救济制度还不够完善,对其研究也是众说纷纭。本文从界定中小学生人身伤害和法律救济的概念入手,廓清学校、教师、家长之间的法律关系,分析处理中小学生人身伤害赔偿的原则与范围,试图探讨合理的中小学生人身伤害法律救济措施。  本文共有五个部分:  第一部分绪论,通过研究现状说明本文的研
学位
1992年至2002年的10年间,我国高等教育管理体制经历了一次重大变革。在中共中央“科教兴国”战略方针和“共建、调整、合作、合并”的原则指导下,我国先后将708所高校合并为302所多科性或综合性的高等学校,净减406所。然而,合并只是第一步,是初级阶段,合并高校的内部调整与融合才是最,重要的,它不仅是关系合并高校未来发展的重大问题,也是检验高校合并这一重大改革决策成败的关键。伴随着合并高校内部调
学位
改革开放40年,是中国不断融入全球化的40年,尤其是2001年加入WTO以来,中国加速了贸易开放。实践证明,贸易开放推动了世界各国的经济发展,世界已交融成一个“地球村”,唯有坚持合作共赢才能获得可持续的经济增长动力。随着贸易开放程度的加大和深化,产品与技术的跨国交易需要更加优化的金融服务,由此衍生出更多的金融需求,从而对一国的金融发展产生重大的影响。贸易开放与金融发展存在密切联系且相互渗透,故学术
学位
在统计建模时,如果误差的方差不为常数,我们就遇到了异方差问题.异方差会导致检验失效,普通最小ニ乘法得到的参数估计量也不再是有效估计量.在计量经济学中,与异方差相关的估计和检验问题被广泛讨论.变点是产生异方差的原因之一.存在变点的数据往往需要先检测变点,然后分段构建模型.因此,本文着重研究以下两个问題:  1.高维时间序列ニ阶结构变点检测;  2.(非参数/参数)条件异方差模型估计.  在第2章中,
隐半马尔科夫模型首次被Ferguson提出并应用于语音识别,之后又被广泛应用到其他领域,比如计算科学,气候学,经济学和计算生物学等.本文主要研究隐半马尔科夫链的贝叶斯估计.  本文将隐状态也作为参数,并利用MCMC方法对参数作贝叶斯估计.对于该模型,两个隐状态和三个及以上的隐状态之间有很多不同,因此需要对它们分别进行讨论.对于两个隐状态的情况,本文讨论了观测服从泊松分布和观测服从正态分布这两种情况
在金融数据挖掘领域,波动率建模一直是研究的焦点之一。从ARCH模型到GARCH模型,用来刻画数据波动率的工具越来越丰富,这些经典模型在金融中也巳有较多的应用。然而,实际数据由于受到各种内外因素的影响,往往具有复杂的内生结构,这也限制了经典模型的进一步应用。为此有学者进一步提出了带有MarkovSwitching的GARCH模型,通过假定数据是由具有一阶时齐马尔科夫链的隐状态所控制的GARCH模型,
学位