BETES:一种中文长文档抽取式摘要方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:sdsdfe45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本摘要在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用Bert预处理模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升摘要句抽取的准确率.实验证明,提出的BETES方法在中文长文本的抽取式摘要过程中提高了准确性,降低了冗余度,并且ROUGE分数优于主流的摘要抽取方法.
其他文献
随着云计算、大数据、人工智能等新一代信息技术的快速发展和应用,高校现有的教务教学平台越来越难以适应网络教学的需要,存在管理分散、资源分散、数据分散、信息化基础设施不足的问题.针对这些问题,作者通过对高校网络学习空间和混合云技术的探讨,构建了基于混合云的高校网络学习空间平台,并分析了其数据共享和混合云管理两个关键技术.
中小学时期是培养学生信息素养的关键时期,这也对教师的信息素养提出了更高要求.本研究从信息意识、信息知识、信息能力与信息伦理道德四个方面对中小学教师的信息素养进行调研,针对问题找出提升策略,希望能为中小学教师信息素养的提升提供参考依据.
本文以“地理信息系统原理”课程为例,结合人文地理与城乡规划专业特色和培养方向,探讨线上线下混合教学模式在教学实践过程中出现的问题,在PDCA质量环框架下以问题为导向提出课程优化改革,并提出多元融合主要指产学研、翻转课堂、分享互助和个性化教学等教学理念的融合.
本文以埃及吉萨金字塔、中国云冈石窟和忻州九原岗北朝壁画墓场景重构为例,从文物数字化、教学设计与效果、反思与愿景等方面,阐述了如何利用新颖的科技手段和教学方法,给予学生沉浸式的教学体验,使得考古教学方式不再局限于现实课堂,并且超越在线课堂.
作者根据工程制图课程的教学特点和需要,基于Unity3d平台开发了教学用移动端工程制图3D虚拟模型资源库,重点研究了虚拟模型资源库系统的交互功能组成、陈列台模型的拾取方法、剖切模型的表达方法和装配体工作原理的动画实现方法,实现了模型资源库模型的分类导航、展台展示,实现了模型-文字、模型-视图相结合表达课程内容的知识点,使人手一个随身携带的工程制图3D模型资源库成为可能.模型资源库的使用锻炼了学生的思维能力,给教与学带来极大便利.
针对海鸥算法(SOA)在求解最优化问题中的不足和算法性能依赖于参数的选取等缺点,提出一种基于惯性权重的海鸥优化算法(Inertia Seagull optimization algorithm,I-SOA),采用非线性递减的惯性权重计算附加变量A的值来调整的海鸥的位置,通过莱维飞行和随机指数值增加海鸥飞行的随机性,增强算法搜索寻优的全局能力,避免算法寻优搜索陷入局部优值;通过12个基准测试函数将I-SOA与标准PSO,SOA,GA算法进行测试比较.实验对比结果表明,所提出的I-SOA优化算法具有较快的收敛
在自然计算方法中,种群规模大,计算复杂度高;种群规模小,容易陷入局部最优.本文提出多空间协同进化(Multi-space Coevolution,简称MSC)的自然计算方法,该方法适用于各种基于种群进化的优化算法,不依赖于算法进化的具体步骤,具有普适性.在传统的生物种群进化的基础上,将大种群分解为个数有限的小种群,部分小种群组成进化空间,另一部分构成指导空间,两个空间拥有不同的功能,指导空间通过特定的信息传递方式将经验概括信息传递到进化空间,从而使整个种群协同进化.将该策略分别应用到粒子群优化算法(PSO
实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本的语言特点进行分析与总结,发现医疗领域实体通常包含一些明显的关键字特征,能够辅助实体分类任务.融合实体关键字特征构建了BERT-BILSTM-CNN-CRF混合模型对医疗领域实体进行抽取,并将医疗实体分为检验指标、疾病、症状这三大类.实验结果表明,使用KBLCC模型进行医疗领域实体分
文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类.实验证明,BERT作为嵌入层输入时,有效优化了词向量.同时,文本提出的BBGA模型具有高效的处理能力,在处理THUCNews数据集时,达到了94.34%的精确度,比TextCNN高出5.2
目前,潜在因子模型被广泛用于推荐,现有的方法大多利用用户与项目之间的交互信息来学习潜在特征,然而,用户和项目的潜在特征可能是来自多个方面.同时,考虑到神经结构可以替代矩阵分解中内积的形式,模拟用户和项目之间的交互,本文提出了一种融合多方面潜在特征和神经网络的推荐模型.首先,将推荐系统建模为包含丰富语义的异构信息网络,然后利用元路径和异构skip-gram模型提取并学习不同方面的潜在特征;其次,结合注意力机制将这些特征向量加权融合;最后,将得到的用户和项目的全局向量表示送入到神经网络中以实现评分预测.本文模