基于统一模型的藏文新闻摘要生成研究

来源 :中央民族大学 | 被引量 : 1次 | 上传用户:my2002hhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的发展,网页上的信息呈爆炸式的增长,文本摘要技术可以帮助人们从大量的新闻中提炼出文章主旨,过滤冗余信息,加快了人们阅读的速度与质量,节约人们的时间。文本摘要是当前自然语言处理领域的一个研究热点,逐渐得到越来越多研究人员的关注。文本摘要大致可以分为抽取式摘要与理解式摘要,前者抽取出能表示原文主旨的关键句子作为摘要;后者通过提取原文的语义信息,对原文进行改写,进而生成摘要,也是文本摘要的终极目标。目前对于摘要的研究工作主要集中于中、英文领域,而低资源语言如藏文领域,生成摘要与评测摘要的方法都还比较落后,而且语料规模较小,主要通过无监督的方式对人工收集到的一定规模的语料进行摘要抽取,评测方式主要是人为评测,没有标准的评测指标。此外,在中、英文生成式摘要领域效果较好的序列到序列模型没有应用到藏文领域。本文针对藏文新闻摘要进行了研究与分析,主要内容与创新点如下:(1)针对目前藏文缺乏大规模训练语料、评测方式不规范等问题,本文通过爬取5万条藏文新闻作为训练语料,将标题作为生成摘要的参考。而且,本文将传统抽取式摘要方法与理解式摘要方法结合应用在藏文上,并采用目前文本摘要评测标准ROUGE方法进行评测,为藏文新闻摘要生成任务提供了一个可供参考的基线。(2)针对藏文新闻文本过长导致训练过程中的梯度消失与爆炸的问题,本文采用联合模型,将抽取方法与生成方法结合起来,先使用抽取式方法从文章中提炼出能够表达原文主旨的句子,去掉冗余信息,缩短文章长度,然后使用理解式方法生成摘要。实验结果表明,与传统方法相比,采用联合模型生成的ROUGE-1值提高了大约2%。(3)针对联合模型第一阶段缺乏标注好的训练语料的问题,本文使用TextRank算法标注抽取式训练语料,训练抽取式神经网络模型。而且,在联合模型第二阶段的生成式摘要中,本文引入指针机制与覆盖机制来解决藏文的未登陆词以及生成的摘要语义重复等问题。
其他文献
社交网络中的意见领袖是指具有较高声望的用户,他们活跃在社交网络平台上,发布对社会热点的看法并对舆论进行引导。准确地识别意见领袖,能够帮助政府及时掌握舆情动向并控制
电力系统经济调度的研究对降低发电成本,改善电力系统运行的经济性具有重要意义。随着电力系统规模的扩大,当计及阀点效应、网络传输损失等实际问题的影响时,不仅成本函数变
在计算机视觉领域,目标跟踪技术是被重点研究的课题之一,其广泛应用于智能监控、人机交互、机器人、无人机等视觉跟踪控制领域。由于应用场景的多样性,跟踪技术面临着多种挑
21世纪以来,聚合物有机半导体材料由于具有质薄轻柔、成本低、易加工和可大面积工业化生产等特点而受到广泛的关注。然而目前研究者大多聚焦于在可见光区吸收的共轭聚合物,吸
携带轨道角动量的涡旋电磁波因其具有螺旋状的相位波前,可为信息调制带来更加丰富的自由度并极大地增加了其信息获取的能力。轨道角动量作为电磁场最基本的物理量之一,理论上
能源的发展推动着时代的进步,和我们每一个人的生活都密切相关,随着科学技术的发展,人们对含能材料的研究也越来越深入。单键态聚合氮是目前为止已知的能量密度最高的含能材
近些年来,随着股权分置改革的基本完成,我国证券市场并购活动变得异常活跃,尤其2008年的金融危机和2013-2015年的行业整合更是将并购重组活动推上了一个又一个高潮。与此同时
一、喇嘛教在蒙古上层的传播二、喇嘛教对元朝蒙古文化的影响三、元朝蒙古上层接受喇嘛教的主要原因喇嘛教名称是近一二百年来汉地对藏传佛教的俗称。喇嘛教传播于蒙古最早在
会议
功率分配器作为一种应用广泛的微波无源器件,是功率放大器、天线阵列中的馈电网络和混频器中的重要组成部分。论文的研究课题来源于辽宁普天数码股份有限公司的“数字电视发
随着数据管理技术的发展与可穿戴智能设备的普及,个人生活数据受到了越来越多的关注。面向个人生活事件的检测一直是复杂事件检测领域的重要研究内容。通过将个人生活数据与