神经网络在新闻标题生成中的研究

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:ailing770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅速发展,网络中的新闻资源呈现指数级数量增长,为新闻生成一条能够直观的体现新闻主题内容的新闻标题,可以使得读者快速浏览新闻内容,准确选择自己感兴趣的内容,节约阅读时间成本,给读者带来良好的阅读体验。事实上,在市场上众多新闻客户端中推荐的新闻内容的标题往往存在着题不答意、模式化、滥用新词语和庸俗化等问题,使得读者不能有效获取自己感兴趣的新闻内容,影响了这些新闻客户端的阅读体验。在实际的应用中,可以使用自动文本摘要技术为网络中的新闻产生一条准确、流畅且简洁的新闻标题。自动文本摘要技术是利用计算机自动地从原始文档中生成摘要,摘要是可以准确全面地反映某一文献中心内容的简洁连贯的短文。根据实现方式的不同分为摘录式和理解式,其中摘要式自动文本摘要是使用不同的形式对原始文档的中心内容和概念的重新表示,其生成摘要中的词语不需要与原始文本相同。本文研究讨论的应用于新闻标题生成的神经网络就是一种摘要式自动文本摘要系统。在本文中讨论的自动文本摘要系统使用了基于循环神经网络的带注意力机制的序列到序列模型的具体模型结构,以及在得到最终训练模型完成后,如何生成。针对使用带注意力机制的序列到序列模型的自动文本摘要系统中存在的问题,本文对其进行了改进。针对现有模型中对生成摘要中词语不准确,特别是难以处理未登录词问题,提出使用指针生成网络来使得模型在具有从固定大小的词汇表中生成新词语的能力外还具有从原始文本中选择词语的能力,从而有效解决原有的基于带注意力机制的序列到序列模型中生成摘要中词语不准确和未登录此现象的产生。而对于基于带注意力机制的序列到序列模型的自动文本摘要系统在生成摘要的过程中存在内容重复现象,特别是在原始文本较长的情况下这一现象特别严重的问题,本文提出使用在机器翻译任务中使用的覆盖机制来解决这一问题,并对覆盖机制针对自动文本摘要任务进行了适当修改。此外,通过在分析新闻标题生成的过程中,使得模型结合了文本分类任务,通过多任务的方式提高了模型生成新闻标题的质量,事实上,在与文本分类任务相结合的模型在完成文本分类问题的同时,也使得其自动文本摘要的模型部分捕获到了不同类别新闻在生成标题中的写作风格特点。最后,在本文中对自动文本摘要任务使用的最小处理单元进行讨论,分析了使用词语级文本处理和使用汉字级文本处理的优缺点,并对其在训练模型时巨大的计算量提出使用分层softmax和负采样的方式进行解决,并比较了两种方案的性能情况。
其他文献
<正>一赵志珍,原名赵秀琴,1921年出生在河北易县一个穷苦农民的家庭。父亲为了让孩子们上学,卖掉了家里仅有的四亩水浇地,靠给别人放羊的微薄收入维持一家人的生计。穷人的孩
目的阐述超声波的特性以及超声检查在以右下部腹痛为首发症状的、疑似急性阑尾炎患者的诊断中的应用价值。方法对67例以右下腹痛为首发症状的、疑似急性阑尾炎的患者的临床超
研究了聚色氨酸膜电极的制备及其肾上腺素在该修饰电极上的相敏交流伏安特性,建立了相敏交流伏安法测定肾上腺素的电化学分析法。在pH 6.0的磷酸盐缓冲溶液中,肾上腺素的相敏
通过对广州市兴丰垃圾场上的空间政治研究,认为政府、地方势力、拾荒老板和普通拾荒者的互动构建了垃圾场的特定社会空间,其实质是社会关系的生产,空间背后的权力逻辑在支配
目的:探讨维尔迈5号治疗下肢深静脉血栓形成后遗症的临床疗效。方法:观察治疗下肢深静脉血栓形成后遗症60例,其中治疗组30例给予维尔迈5号口服治疗,对照组30例给予丹王颗粒口
在高校校园文化建设的过程中,思想政治教育工作起到决定性的作用,主要因为二者都是为培养学生人生观与价值观所创建的模式,因此,为了促进校园文化与思想政治教育工作的良好实
通过烧结法制备了Mn3O4掺杂量的Zn O-Pr6O11系压敏电阻材料,研究了Mn3O4掺杂对Zn O-Pr6O11系压敏电阻微观结构、电学性能的影响。研究表明:随着Mn3O4掺杂量的增加,Zn O-Pr6O1
<正>中山市童车产业中,婴儿手推车占比最大。记者采访中了解到,婴儿手推车创新主要集中在功能方面,因此,我们看到的婴儿手推车即使外观相似,但在功能、细节处的设计等方面也
如何训练口语能力湖南省娄底地区卫校(417000)王冰青口语能力训练是中等卫生学校语文教学的重要内容,是语文课培养医学实用型人才的三大目标(思维能力、写作能力、口语能力)之一。我们遵