基于seq2seq和图网络的关键词抽取算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:moyan905254131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词提取任务是一项基础的自然语言处理任务,其目的在于从文本中提取出具有代表性的关键词或短语。本文发现并讨论了当前序列生成模型存在的两个问题:传统的序列编码模型难以学习到文本全局的信息以及当前模型未能很好地学习标题的重要信息。前者讨论全局信息,这一信息在许多无监督方法中扮演着重要的作用,基于统计的方法正是利用全局词汇共现关系来得到文本关键词。而当前的序列生成模型仅仅是依赖文本上下文信息,抛弃了文本的全局信息。此外,标题信息包含了重要的主题信息,而当前的文本输入方式将标题与文本拼接输入,大大削弱了标题在关键词提取任务中的重要性。为了解决上文提出的两个问题,本文提出一些解决方案来提高关键词提取任务的性能。本文主要贡献包括以下几点:(1)提出了融合图卷积网络的序列生成模型。通过融合图卷积网络和全局语料词汇共现关系,提高模型对序列中全局信息的捕捉能力,弥补传统RNN或LSTM对全局信息学习能力的不足。(2)结合注意力机制,提出融合图注意力网络的序列生成模型。考虑到文本中词与词之间存在着不同的重要性,因此在图卷积网络的基础上,引入多头注意力机制,为不同的相邻节点分配相应的权重,关注权重更大节点的信息,同时忽略作用较小的节点信息,减少信息干扰。(3)利用双向注意力流来实现标题与文本信息的相互学习。标题包含概括性的主题信息,但是当前标题与文本拼接输入的学习方式忽略了标题的重要性,因此在序列编码层使用双向注意力流模块来加强标题信息对文本的重要性,同时实现双向的信息补充。最后,本文在五个数据集上进行了对比实验,以验证本文所提出方法的有效性。实验结果表明,融合双向注意力流的关键词提取模型能够学习到标题中的重要信息,提高了关键词提取任务的准确性。在当前模型的基础上,融合图神经网络,能够更好地捕捉到文本的全局信息,提高关键词抽取的性能,在多个数据集上都取得了最优的结果。
其他文献
具有场景化、低速化特点的智能物流车是现阶段探索自动驾驶发展的重点。智能物流车作为自动驾驶技术的研究平台,兼具实用价值与研究价值。规划模块是智能物流车的重要组成部分,其负责在园区地图中规划出一条从起点到目标点的路径。园区环境常出现预构建地图中未记录的障碍物,如何兼顾最优化与实时性的要求,找到一条安全可行的路径是智能物流车规划模块的一大挑战。本文针对校园快件派送场景,研究智能物流车的路径规划算法,目标
由于日益严峻的抗生素耐药威胁,当前迫切需要新型对抗策略。为解决该问题,本研究围绕多重耐药病原菌的耐药性传播和工程噬菌体干预展开。探索环境和遗传因素对质粒介导的耐药性传播的影响,建立新策略所需理论基础,为工程噬菌体靶向干预提供目标;开展活性原噬菌体预测分析,扩充新策略所需资源储备,为工程噬菌体靶向干预提供天然噬菌体资源;搭建特异性靶向病原菌的工程噬菌体平台,搭建新策略所需技术平台,为工程噬菌体靶向干
疲劳驾驶将会导致驾驶员的反应速度下降,从而增加了发生交通事故的可能性。检测出驾驶员是否疲劳可以避免许多交通事故的发生。因此设计一种检测疲劳驾驶的算法非常重要。现有疲劳检测的方法通常通过捕获驾驶员眨眼、打哈欠和打瞌睡等驾驶员的行为来进行识别司机是否疲劳。这种方式的优点在于通过相机捕获数据,不会干扰驾驶员的驾驶。但是也有许多研究将生理信号作为一个重要的疲劳检测数据。如果我们能同时融合生理信号和驾驶员行
混沌是确定性系统产生类似随机的现象.混沌在保密通讯、航天航空等领域有广泛的应用.然而如何证明系统混沌的存在性仍然是个复杂的问题.很多学者通过研究简单系统的混沌产生机理来理解复杂系统的混沌产生机理.而分片仿射系统具有形式简单而动力学丰富的特点,因此对分片仿射系统的研究可以帮助理解复杂系统的动力学.本文研究了一类3D分片仿射系统的极限环和混沌.通过对系统轨道的分析,得出了从研究区域出发的正半轨道不发生
在开放的互联网时代,确保可靠有效的数字身份认证,是保障信息安全的第一道防线。目前,基于非对称加密理论的数字签名机制是实现数字身份认证的一种有效且应用广泛的方式。数字签名的可靠性依赖于合法的数字证书,需要由可信的第三方机构即认证中心(Certificate Authority,CA)颁发,用于确保用户公钥的合法性。然而,认证中心作为公钥基础设施(Public Key Infrastructure,P
波达方向估计是信号处理领域中的一个重要的共性科学问题,它在移动通信、雷达目标定位与跟踪等工程技术领域有着广泛应用。在本文中,我们针对波达方向估计的相关技术展开了研究,从信号特征的角度对嵌套阵列、互质阵列的波达方向估计算法进行改进,提供了新的波达方向估计方案,同时进行了分析归纳和计算机仿真实验。本文的主要工作与贡献如下:(1)介绍了几种传统MUSIC(Multiple Signal Classifi
我国危险品的运输量逐年上升,而运输过程中事故屡有发生,又由于轴辐式的网络能够有效的减少运输企业的成本,已经成为部分运输企业远距离运输的优选,根据这一运输趋势,本文针对基于轴辐式网络的危险品水陆联运网络进行研究。另有研究表明,中转点的选址规划对网络效用有正向影响、收费的调控方法能够引导企业选择低风险的港口,弥补禁行策略在解集较少、有时无法达到网络风险最小的缺点。故,本文主要从政府的角度出发,以风险最
随着社会和科技发展,人类对互联网的依赖程度逐渐增加,人与各种在线或离线电子系统的交互日渐频繁,这使得个人身份验证系统在安全防控层面显得越发重要。但日常惯用的密码确认身份方法存在密码被盗用或遗忘的隐患。相比较而言,基于人体生物特征的身份识别,不易被伪造或窃取,具有较高的安全性和便捷性。脉搏波作为一种个人特有的生理特征信息,与指纹类似,可作为一种身份识别的手段。本文设计了一套脉纹身份识别系统,系统包括
量子纠缠是量子力学中特有的现象,纠缠为量子信息处理提供了重要的物理资源.如何检测和度量量子纠缠态也就成为重要的问题,这一问题推动了许多关于量子态可分准则的发现.对于2 × 2,2 × 3系统中的两体量子态,PPT判据是可分的充要条件,但对于高维多体的量子态来说,并没有一个通用的判据来区分纠缠和可分的量子态.近年来许多学者致力于研究判断纠缠的充分条件,其中一个简便的判断方法就是纠缠目击(Entang
社区生活服务设施是社区居民日常生活中使用时间长、使用频率高的设施,是幸福社区建设的重要物质基础。但随着我国老龄化和少子化的趋势,社区养老育儿面临新的挑战,社区生活服务设施存在供需不平衡、设施利用率不高、世代间交流较少等问题。针对上述情况,本文以六个典型的广州居住社区为研究样本,通过行为观察、问卷和访谈等方法获得老幼人群的行为需求和设施复合意愿,探讨促进老幼融合的复合型社区生活服务设施设计策略,对提