英文文本标题自动生成方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:feilang166
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网的快速发展,人们每天都能接触到大量的文本,信息爆炸式增长产生了海量的数据。面对这些海量的文本数据,如何快速的浏览和选择所需要的内容,有效的节约阅读时间已成为一个迫在眉睫的问题。文本的摘要和标题能反映出文本的主要内容,让读者进行有效的筛选和阅读,自动生成文本摘要和标题在信息过载中具有非常重要的用途。随着深度学习的发展,生成式的自动文本标题模型被广泛使用。生成式方法依赖理解文本语义,对语义信息进行表达,从而生成标题。但由于机器本身不具备人类的语言能力去全面理解文本并生成概括核心内容的标题,因此,生成式的方法充满挑战性。序列到序列模型在多个自然语言处理任务上被广泛使用,同时也为文本标题生成任务提供了新的思路。基于序列到序列的标题生成模型要编码文本的语义信息,理解文本的语义关系,生成符合原文中心内容的标题。本文针对序列到序列模型开展英文文本标题生成的研究,主要研究工作如下:(1)基于句子级LSTM编码的标题生成。序列到序列的标题生成模型在编码阶段是对文本进行上下文语义信息表示,本文提出一种基于句子级LSTM编码的文本表示方法,并行对文本中每个单词编码表示,构建全局的句子级状态以及建模每个单词的子状态,通过循环步骤对单词之间的局部状态和整体文本的全局状态进行信息交换。编码得到语义表示后使用混合指针网络的解码器生成标题。在相关数据集上的实验结果显示模型理解文本的有效性。(2)融合特征和多头注意力机制的标题生成。在生成式的模型中添加词汇语言特征,将词汇的语言特征向量与原文词向量融合,提高生成标题与文本的语义相关性。同时在注意力部分使用多头注意力机制,从不同表征的子空间获取更多层面的特征,让模型充分获得上下文信息,最后将多头注意力分布集成到指针网络作为解码器生成标题。实验结果表明,模型能够提高生成标题的质量。
其他文献
棒曲霉素(patulin,PAT)是一种对人类健康造成极大威胁的真菌毒素,普遍存在于水果及其制品中,在苹果及其制品中的污染尤为严重。利用微生物法降解棒曲霉素以其经济、安全、高
大数据时代下,在生产实践中获取的属性越来越多。一部分属性可能是冗余的或与分类任务无关,在进一步数据处理之前需要将它们删除。特征选择(也称为属性约简)是一种用于减少特
人体姿态估计是图像分析和行为识别的重要基础,通过对图像中人体关节点位置的检测,用于后续对图像内容的辅助理解。随着电子设备的不断智能化,人体的行为分析越来越多的被用
附在基材上的导电薄膜(导电涂层)被广泛应用于抗静电、电磁屏蔽、金属防防腐蚀以及电子设备等领域。然而,目前石墨烯基导电涂层在制备过程中往往需要用到合成树脂类材料做胶
摆动转子压缩机是滚动转子压缩机的孪生结构,随着制冷工质的发展,研究人员发现摆动转子压缩机具有承受更大压力差的优点,比滚动转子压缩机具有更明显的优势,因此在部分空调压
喇嘛甸油田一类油层聚合物驱已全面转入后续水驱,2007年10月开始,通过对二类油层高浓度聚合物驱的推广,通过对油水井近几年的油水井精细调整和实践,我厂北东块几个二类油层高
共轭亚油酸(Conjugated linoleic acid,CLA)是一系列具有共轭双键的十八碳二烯酸。作为一种新型的具有广泛生物活性的功能性脂肪酸而备受关注。目前,CLA的规模化生产主要利用
随着互联网技术的普遍与发展,世界进入了信息爆炸时代,计算并分析大规模密集型科学数据已成为数据挖掘的新趋势,而文本挖掘作为数据挖掘的主要方面,也已经成为知识发现的新方
近年来,随着城市化进程的快速发展,城市规模逐渐扩大、人口数量迅速增加导致了水资源供需矛盾日益突出。地表水和地下水污染、水资源空间分布不均匀和全球气候变化引起的干旱
压裂技术是低渗透油田增加单井产量,保证油田产量稳定,并从中提高经济效益的一项重要措施。他拉哈地区油藏具有油层埋藏深、油层物性比较差、丰度比较低、小层发育多、每个单