融合信息论的自动文本摘要方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:tuantuan731
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
的本质是一个信息抽取与处理过程,然而目前自动文本摘要技术的研究往往基于经验主义与实用主义方法,缺乏利用信息论框架进行有效的分析、指导与改进。本文首先基于Peyrard的信息论框架,对原始Text Rank算法只考虑了句子间相似度的局限性,提出使用文本摘要信息论框架中的重要性概念对经典Text Rank算法进行改进,提出融合信息论优化的Text Rank方法。并且在其中对句子并非基本语义单元的问题,提出了句子重要性的概念与计算公式。接着模拟人类生成摘要的两阶段过程,提出一种融合信息论的两阶段文本摘要生成方法:在第一阶段采用经过信息论优化的Text Rank算法抽取出关键句,在第二阶段利用Transformer神经网络进行创造性的文本组织与生成。同时采用信息论框架对中文语义单元的选择问题进行了分析与指导,对中文语言环境中常见的字词缩写现象利用信息论框架进行了分析,为混合字词特征的中文文本摘要模型提供了理论支持。由于近期BERT预训练语言模型在一系列自然语言处理任务上取得了突破性进展,本文还探究了BERT预训练模型在中文文本摘要上的应用。根据文本摘要信息压缩的特性,提出采用全词遮罩(Whole Word Masking)的中文预训练语言模型BERT_wwm作为编码器提取词级粒度信息特征,采用多层Transformer作为解码器以字为粒度生成摘要的混合字词特征中文文本摘要模型。分别以BERT_base_Chinese、BERT_wwm_Chinese、BERT_wwm_ext_Chinese和Ro BERTa_wwm_ext_Chinese四种预训练语言模型作为中文词级信息特征编码器,在LCSTS数据集上进行的实验结果表明,Ro BERTa_wwm_ext_Chinese+Transformer的性能超过了HWC+Transformer方法。此外,量子计算机作为最具颠覆性的下一代计算机范式,对许多经典算法都有加速作用,本文模仿量子Page Rank方案的工作,对本文融合信息论优化的Text Rank方法进行了量子化工作,有望在即将到来的量子计算时代具有实用意义。综上,尽管做了以上许多工作,但本文仍存在许多不足之处,因此在最后对本文局限性进行了分析,并给出了6点未来的研究方向与计划。
其他文献
随着科技的进步以及社交网络的不断发展,影响最大化问题逐渐成为了社交网络中的关键问题。而传统的影响最大化问题已经不能满足当前应用场景多样化的需求。因此个性化影响最大化作为社交网络影响最大化的一个分支出现在人们的面前。个性化影响最大化问题就是以特定的社交网络用户作为对象,挖掘使其受影响程度达到最大的初始影响传播用户集合。本文从传播模型的方面考虑,对个性化影响最大化问题展开了探究,分别提出了基于多重级联
工业4.0的到来不仅要求机械设备更加智能化,也对机械设备的可靠性有了更高的要求。本文以机械设备运行状态信息为基础,以信号处理技术为主要手段,分别从信号采集、状态特征提取和运行可靠性评估三方面着手,提出了基于最小熵解卷积-快速变分模态分解、模糊近似熵和模糊支持向量数据描述的运行可靠性评估方法。首先,针对机械设备早期损伤状态信息易受到强背景噪声干扰而不易被提取的问题,提出一种基于最小熵解卷积-快速变分
非认知能力对个体劳动力市场表现和和社会行为的重要作用已不断被认识。家庭作为最基本的社会组织或社会制度,是儿童青少年最重要的社会化场所,与儿童青少年非认知能力发展关
科学的教学评估有利于促进教师不断提升其执教水平、专业素质、以及师品师德等。现阶段我国高职院校的教学评估工作大多依赖学生成绩和领导评价,评价过程中有过多的人的主观
互联网技术的发展使传统教育模式逐渐向网络教学模式转变,学习者的情绪作用备受研究者关注,但情绪研究在网络教学系统设计中存在局限性,缺少以用户情绪状态去指导系统设计的
在进入互联网时代以来,有许多的新型概念被提出来,不论是工业上的,商业上的,等等。在新时代的背景下,系统化、自动化、规范化已经成了所有企业、工业的基本特征。虽然目前已
以Ga N、Si C为代表的第三代半导体材料具有宽禁带、高击穿电场、高热导率、高电子饱和速率等特点,但其服役环境较为复杂,这对器件的连接材料及连接可靠性提出了更高的要求。
语义网技术的不断演进和发展,推动了机器对Web数据的智能化理解,并催生了众多的知识图谱。知识图谱以符号化的形式描述现实世界中的实体及其相互关系,结构化地存储着大量描述
球团矿较高的还原膨胀率一直对其入炉比例造成影响,为探究球团矿还原过程中产生恶性膨胀的问题,本论文利用第一性原理计算软件,对铁氧化物还原过程的产物进行晶胞体积的计算,比较不同还原产物的体积变化;采用还原气H_2对纯试剂Fe_2O_3压条进行还原实验,使用PCY-G膨胀仪进行在线检测,通过对比不同还原温度、还原时间和焙烧温度条件下还原产物的外观形貌与显微结构,解释还原反应产生膨胀差异的原因。研究结果表
氢化丁腈橡胶(HNBR)由于具有显著的超弹性、粘弹性和良好的耐油、耐磨、耐压性能等优点,被广泛地应用于密封元件、冲击吸能模块和滚珠轴承垫片等工业场景中。对于高分子材料而言,应力松弛是一种十分普遍的现象,其对应力/应变加速老化过程的影响不可忽略。因此,考虑松弛效应的加速老化实验方法,可以为预测橡胶制品长期服役过程中的性能表现和评估其可靠性提供有效的帮助。为研究应力松弛对HNBR加速老化的影响,本文开