【摘 要】
:
随着科学技术的飞速发展以及信息技术的普遍应用,人们的日常生活与网络已经紧密相连。由于网络中文本信息的爆发式增长,人们每天可以接触到海量的文本信息。然而大部分人没有时间对文本信息进行详细的阅读和理解。如何从海量的数据中快速获取有价值的信息,已经成为当前人们的一个迫切需求。因此自动获取关键字为此提供了一种有效的解决方案。目前关键字获取方式主要有两种:提取和生成。提取方法依赖于词频的统计和排序,但不能揭
论文部分内容阅读
随着科学技术的飞速发展以及信息技术的普遍应用,人们的日常生活与网络已经紧密相连。由于网络中文本信息的爆发式增长,人们每天可以接触到海量的文本信息。然而大部分人没有时间对文本信息进行详细的阅读和理解。如何从海量的数据中快速获取有价值的信息,已经成为当前人们的一个迫切需求。因此自动获取关键字为此提供了一种有效的解决方案。目前关键字获取方式主要有两种:提取和生成。提取方法依赖于词频的统计和排序,但不能揭示文本背后隐藏的语义信息;生成方法主要基于循环神经网络构建模型,但存在距离对单词之间依赖特征限制的问题。本文主要针对上述问题提出基于自注意力机制的编码器解码器模型SAM(Self-Attention Model)。此外,为了解决未登录词问题,本文基于SAM模型提出一种融入复制机制的关键字生成模型SACM(Self-Attention Copy Model),它允许模型直接从源文本中复制关键单词短语。本文详细的研究内容如下:(1)提出一种基于自注意力机制的关键字生成模型SAM。该模型基于文本语义生成关键字,可以生成源文本中不存在的关键字。它是一种编码器解码器框架结构,完全依赖自注意力机制获得输入和输出的全局依赖关系。首先通过编码器中的多层多头自注意力机制学习输入序列的内部依赖关系,然后把这种依赖关系输入到解码器中的每个多头自注意力机制层,同时结合上一次输出的信息来生成下一个关键字。该模型克服了以往基于循环神经网络的生成方法因其固有的序列性而导致的无法并行以及长距离单词之间依赖减弱的问题。(2)提出一种结合自注意力机制和复制机制的关键字生成模型SACM。为了解决关键字短语集中长尾词(单词个数较多的短语)等未登录词生成效果差的问题,本文在模型SAM的基础上融入复制机制,允许模型直接从源文本中复制关键信息。该模型有两种模式:复制和生成。复制模式通过结合复制机制和自注意力机制直接从源文本中复制信息。生成模式基本与模型SAM相同。SACM模型结合这两种模式来生成最终的关键字,提升长尾词等未登录词的生成效果。(3)通过对预测关键字、预测当前关键字、预测缺失关键字三组实验结果分析表明,本文模型比基线模型效果更好。同时基于自注意力机制和复制机制的模型SACM比只基于自注意力机制的模型SAM效果更好。最后把模型应用到新闻领域验证了本文模型具有一定的泛化能力。
其他文献
自1895年一纸《马关条约》将台湾割给日本,在长达50年的被殖民过程中,台湾人民经历了武装和非武装斗争,在反殖民运动的过程中书写了一曲新篇章。以林献堂为首的台湾留学生关心台湾殖民地所遭受的种种不公待遇时,创办了一份启发台湾文化、振起同胞元气、谋台湾幸福的《台湾民报》。此份报纸作为“台湾人民唯一的言论机关”,在日据期间对台湾人民的思想文化启蒙、政治自治运动、反经济掠夺运动等都起了重要作用,成为一部完
电影发展至今仅有百余年,但其传承发展却是一段值得深入研究的历史。在抗战时期,电影市场的需求随着战时环境的变化而变化。这段特殊时期的电影史被当时的多家报刊记录了下来。《大公报》创刊于1902年,是迄今中国发行时间最长的中文报纸,较为全面客观地呈现出中国抗战时期电影的发展历程。抗战全面爆发后,抵抗日本帝国主义的侵略成为中国民众的迫切需求,原本流行的神怪片无法满足战时需要,“国防电影”因此成为电影市场上
光和物质彼此作用不仅是物理学领域探索的关键问题,也是人类理解世界的一个重要手段。特别是最近几年,激光技术得以飞速进步,甚至飞秒激光的脉冲宽度已经达单周期量级。在这种极端条件下,激光与原子﹑分子和团簇彼此之间的作用问题逐渐成为一个具有挑战性的前沿基础科学问题。人们将飞秒强激光作用到各种形态的物质上观测到了许多独特物理现象。分子里德堡态与分子振动激发也在其中,并在激光诱导分子电离解离方面起着重要的作用
人体呼出气被视为血液顶空气体,通过肺泡交换排出体外,可在一定程度上反映人体的内源代谢情况。近些年,随着医学诊断无损化的不断发展,呼出气分析由于其无创性、无痛性及便捷性,具有临床疾病早期诊断与大规模筛查的潜力,越来越受到人们的重视。然而,人体呼出气的基质复杂,且呼出气中生物标志物的浓度含量低(10-1212 mol/L-10-99 mol/L),难以实现对呼出气中生物标志物的准确灵敏检测。因此,很多
肺纤维化(PF)是一种进行性、致命性的间质性肺部疾病,其主要病理特征是成纤维细胞过度增殖、活化,细胞外基质沉积增多,伴有炎症损伤所致组织结构破坏和功能丧失,并最终导致呼吸衰竭死亡。肺纤维化患者的平均生存期是从诊断时起3-5年。到目前为止,由于发病机制尚不清楚,肺纤维化仍然缺乏特定的早期诊断和有效治疗方法。近年来,随着肺纤维发病率上升,关于肺纤维化的研究多有文献报道。有研究表明,肺纤维化病人的肺部组
世界上的各种复杂系统千差万别,为了对这些复杂的系统有一个更加清晰全面的认识,我们将研究对象抽象成节点,将研究对象之间错综复杂的关联关系抽象成节点之间的连边,重新组合在一起,就形成了形形色色各种类型的网络。通过对抽象网络的研究,我们就可以发现隐藏的存在于研究对象之间的内在作用规律,这将对人们的实际生活产生巨大的效益。链路预测领域就是其中一种对抽象网络长期研究形成的成果。链路预测领域综合了相似性分析,
公允价值计量属性的运用及其经济后果一直是学术界和实务界研究的热点,围绕这一问题展开的讨论从未间断,各执一词,褒贬不一。随着财务信息在资本市场的作用日益凸显,公允价值
体育反映了人类社会的文明与进步,体育的开展情况与发展速度体现了我国社会的发展与进步。体育教师的生存状态影响其工作和生活质量,影响着学生的学习状态和未来发展,从而影响到社会上家庭的稳定和谐。体育教师在体育教学与传播中担任着最主要的实践者和引导者,体育教师对新时代中国的体育强国目标与全民素质教育的实现有着重要的意义与作用。因此,在关心体育教育的过程中,要把聚焦点放在提高体育教师生活质量,改善生存状态上
随着人口的增长和经济的发展,全球能源需求在可预见的未来将持续增长,当今绝大多数能源来源于化石燃料。然而,由于煤、石油和天然气不可再生矿物燃料的枯竭和矿物燃料利用对环境的有害影响,促使人们对太阳能和风能等可持续和清洁能源的转换和储存的创新技术进行了大量研究,可再生能源系统的开发越来越受到人们的关注。析氧发生反应(OER)在储能和转换技术中起着重要的作用,但其缓慢的动力学可能会导致较大的过电位,因此需
固体氧化物燃料电池(SOFC)作为一种能量转换装置,因其燃料选择多样,能量转换效率高,可忽略的有毒气体排放量而受到了广泛的关注。燃料电池主要由三个部分组成:多孔的阳极和阴极