基于中文长文本的自动文本摘要系统研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhenmafanwokao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要是人工智能领域中一个非常重要的研究方向,根据摘要产生方式的不同可分为抽取式摘要和生成式摘要。生成式摘要因为与人工摘要更相近,成为了近年研究的主流。但生成式摘要在中文长文本应用中面临着严重的信息错误和信息丢失问题,本论文将从解决这一问题入手提出新的模型:SSM(Super Segmentation Module)。首先,以往自动文本摘要方法中通常使用的word2vec词嵌入模型会导致中文里一词多义类文本出现错误。本论文在句向量生成时,利用BERT代替word2vec。利用BERT的深层次网络使它生成的句向量包含更多信息,在长文本上的表现提升。其次,对于包含多个主题的长文本,生成式自动摘要模型存在主题丢失的问题,在模型上加入主题分割模块,利用改进的Jaccard算法、word2vec算法做句子相关性计算,通过主题分割文本段落,再进行生成式摘要,可有效解决主题词丢失问题。本论文使用ROUGE作为评价标准,以中文长文本作为数据集,统计机器生成的摘要和参考摘要中重合的短语个数,最终在大于5000字的长文本数据集上将ROUGE-1、ROUGE-2和ROUGE-L的1F分数分别提高了40%、60%和63%,验证了词嵌入层的改良和主题分割模块的加入,可有效提升模型在长文本自动摘要提取上的性能。
其他文献
资源描述框架(RDF)作为表示和记载图结构数据的技术规范之一,被广泛应用于知识图谱、社交网络、金融风控等场景。用户使用RDF图查询系统进行信息检索,发掘图数据集中特定的信息。随着人类进入大数据时代,实际场景中的图数据集正变得日益庞大。海量数据给RDF图查询系统带来了存储效率上的挑战:如何在保障系统性能的前提下提升系统的存储效率,用更少的空间存储更多的RDF图数据,降低系统运行的硬件成本,成为学界和
资源描述框架(RDF)是W3C组织制定的一个标准数据模型,用来表示万维网上的关联数据。RDF将相互关联的数据描述成一系列的三元组,这些三元组构成一个高度连通的图(RDF图)。用户可以通过SPARQL查询语言检索RDF数据。在线图查询是访问关联数据的重要方式,其目标是在图数据中找到符合查询约束条件的顶点集合。图查询任务可以分为两种类型:小查询和大查询。小查询在执行时只需要遍历一小部分顶点和边,而大查
目标检测技术在计算机视觉扮演着根本性的作用,是许多高级视觉任务的基础,同时在许多场景中得到大规模的应用,像智慧城市、智慧医疗、智慧农业等。虽然随着近些年深度学习的发展,目标检测的性能得到显著的改善,但是现有方法依然面临着目标尺度及场景多样复杂性的挑战。本论文针对现有目标检测算法的不足,分别从网络结构及损失函数两方面提出具有现实意义及原创性的算法。一方面,现有的目标检测算法一直面临着对小尺度且模糊的
操作系统是系统中最重要的部件之一,承载着从桌面软件到服务器程序的各种应用,确保应用的稳定、高效、安全运行。目前服务器中大部分系统都使用宏内核,例如Linux,其共享内核地址空间的架构减少了不同模块交互的性能开销,然而这种宏架构却使得其安全风险越来越突出。代码量的巨大导致内核几乎不可避免的包含诸多漏洞,隔离性的缺乏则使得内核安全性更加脆弱,且内核的权限极高,一旦其中任何一个部件被攻破,整个系统都暴露
三维手部姿态估计指的是从图像数据、深度数据、动捕数据或其他传感器数据中获取信息,并使用计算机图形学、计算机视觉、神经网络等算法来还原人体手部关键点位置关系,从而重建包括手部位置、骨架约束等在内的手部三维姿态信息。三维手部姿态估计技术可以应用于多种领域,例如影视动漫、远程操控、虚拟会议等。另一方面,随着虚拟现实的发展,越来越多的学者意识到虚拟现实技术在教育领域上的优势。近年来,虚拟现实在教学实验上的
环境智能和普适计算的进步正推动着智能空间的空前发展,而智能空间针对特定用户实现服务个性化的前提正是对与之交互的用户的识别,用户识别和认证对于增强智能空间的定制化能力以及加强其安全性具有重要意义。目前广泛应用的用户识别方式是基于用户生理特征信息(例如人脸、指纹等)的,但这类基于生理特征的用户识别方式往往依赖用户的主动参与并且存在伪造攻击的风险,例如,通过佩戴仿真面具会将人脸识别系统攻破。实际上,除了
随着信息技术的发展,图像处理算法的计算复杂度在不断提升。与此同时,海量的信息处理对实时处理系统的计算能力提出了越来越高的要求。图形处理器(Graphics Processing Unit,GPU)具有并行处理能力强、吞吐率高等优点,广泛应用于图像处理硬件系统中。论文面向二维卷积和二维傅里叶变换(Fast Fourier Transform,FFT)两个代表性的图像处理算法,研究其在嵌入式GPU上的
活体认证是基于生物特征的身份识别,随着人工智能的发展正在逐步的取代传统的身份认证,已被广泛的应用在金融、安防、军队等领域。但随之而来的便是层出不穷的针对活体认证的攻击手段,这就要求活体认证能对相应的攻击手段进行有效的防御。为此我们所期望的活体认证不仅对活体具有较好的检测认证能力,也应该具有能实时在线处理、受光照或拍摄设备的影响小、用户操作界面简洁友好且用户的交互尽量少等。所以安全性、时效性、客户体
面对复杂多变的市场形势,企业要精准把握市场,做好运营预测,就应充分发挥行全面预算在企业管理的作用,为经营目标的实现提供指导。然而,在实践中,不少企业对全面预算管理认识不足,相关经验缺乏,在实践操作中面临系列问题,影响着企业发展。基于此,本文对企业实施全面预算管理的问题进行了系列探讨。
目标行人搜索是计算机视觉领域中的新兴热点研究方向之一。类似以图搜图、人脸识别的技术,目标行人搜索模型利用目标的全身图像在海量的摄像头视频搜索目标出现在哪个摄像头,如何从各种不同的拍摄角度判断是同个人是最难的部分。目标行人搜索充分的应用在商场以及嫌犯搜索等领域,由于目标行人搜索属于深度学习的应用,特别需要GPU的运算资源,随着摄像头的增加,扩展性受到限制,近年来愈来愈多的嵌入式装置,例如英伟达的TX