面向新闻文本的基于深度学习的事件线抽取

来源 :东南大学 | 被引量 : 0次 | 上传用户:zgrmxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,在线的新闻媒体站点源源不断地产生和传播每天发生的各种各样的事件。面对如此庞大的信息量,不借助自动化工作,公众很难有效地从中获取自己想要的信息。事件线抽取(Storyline Extraction),旨在从海量的新闻文本中自动地抽取和总结热点事件,并以结构化的方式跟踪和揭示事件是如何随着时间发展。很显然,事件线的抽取将有助于读者面对海量的新闻文本,清晰把握,了解当前发生的主要事件的发展脉络。因此,具有十分重要的现实意义和应用价值。目前已有若干面向新闻文本的事件线抽取方法被提出,其中大多数方法基于贝叶斯概率图模型,采用无监督的方式。相比于有监督方法,无监督更贴近人类学习的方式,无需进行数据标注,更加稳定与通用,因此广受研究人员的关注。但是,概率图模型一类的方法通常存在模型结构复杂,运算耗时等问题。考虑到深度学习在自然语言处理领域的广泛应用,相比较于传统方法,深度学习能够自动学到海量数据中隐含的语义信息并完成特征抽取,具备挖掘深层次特征的能力,因此已经在多个自然语言处理的任务当中取得了显著的表现。因此,本文针对面向新闻文本的基于深度学习的事件线抽取方法进行研究,结合深度学习与无监督的优点,在不使用标注数据的情况下更多地挖掘文本中深层次的语义特征。本文的主要工作有:(1)为了解决现有的使用概率图模型抽取事件线存在的结构复杂,推导繁琐,速度慢等问题,我们提出了基于神经网络的事件线抽取模型(NSEM)。该方法基于新闻正文和标题的两个相似性假设,采用成对排序损失对模型的参数进行优化,将事件抽取与事件线构建纳入到一个统一的框架中,并且能够利用文本中丰富的语义信息。我们在三个新闻的数据集上对该方法进行了实验对比,实验结果显示我们方法的准确率、召回率以及F值在三个数据集上均优于现有的最好方法。(2)为了解决NSEM模型不能够提取事件表示等问题,我们提出了深度嵌入事件线抽取模型(DESEM)。该方法首先使用堆叠去噪自编码器学习初始的事件表示,之后将数据按天进行分组,在每组数据的基础上,采用聚类损失进行模型参数优化,进一步优化事件的表示,此外,我们通过一个融合层进行事件线的构建,进而能够同时进行事件表示的学习和事件线的构建。我们在三个新闻数据集上对该方法进行了实验对比,实验结果显示我们的方法的准确率、召回率以及F值在三个数据集上均好于包括NSEM在内的对比算法。此外,我们的方法能够抽取文本中事件的隐含特征,抽取的特征可以进行可视化展示以及供下游应用使用。
其他文献
水体富营养化加剧致使蓝藻水华频繁暴发,产生的次生代谢产物——微囊藻毒素(microcystins,MCs)对水生态系统与公众健康构成严重威胁。微生物作为生物群落中的分解者,在MCs的自
目的:通过向豚鼠鼓阶直接注射脂多糖(lipopolysaccharide,LPS)造成急性炎症性听力损失模型,全身应用激素和(或)罗格列酮,初步探讨在该模型中是否存在激素上调丝裂原活化蛋白
8Cr4Mo4V钢因其性能优异而被广泛应用于制作航空发动机关键零部件的主轴轴承,其性能及精度直接与航空发动机的可靠性、工作稳定性和环境适应性相关联。热处理是8Cr4Mo4V钢制
厚翻译(thicktranslation)这一概念源于深度描写,由美国学者阿皮亚正式提出,再经中西方学者不断从理论和实践角度发展。笔者翻译了阿兰·德波顿的四篇散文,鉴于其中频繁出现
本研究采用水热法合成NaYF4:Yb,Er/Ho@Bi2WO6上转换复合材料。通过XRD、SEM、XPS、比表面积分析仪等手段对各样品进行表征,以选矿药剂丁铵黑药为目标污染物,考察合成条件对稀
道路交通事故是威胁人民生命、财产安全的社会公害之一。为了提高道路交通安全性,基于道路交通本质安全的理念,研发一种用于路面养护的安全功能材料——钢渣微表处混合料。为
对桥梁结构进行弹塑性地震响应分析的关键是选择能准确模拟延性墩柱构件非线性力学行为的非线性梁柱单元。相较于实体单元和集中塑性铰单元,弹塑性纤维梁柱单元兼具计算效率和计算精度,因此在土木工程结构抗震分析中得到了广泛的应用。本文利用通用有限元软件ABAQUS的二次开发功能发展了一种弹塑性纤维梁柱单元并将其应用于桥梁抗震研究。主要研究内容包括:(1)利用ABAQUS提供的UMAT程序接口二次开发了多种可适
在深度学习领域,增加训练样本数量或增加模型参数数量是极大提升深度学习应用解决现实问题准确率的重要手段。单个GPU无论在计算能力还是内存大小方面都无法满足大规模深度学
眼底是人体唯一可以直接无创观察血管的组织。荧光素眼底血管造影技术(fluorescein foundus angiography,FFA)是眼底疾病诊断的金标准,是获取眼底血管结构与血液循环情况的重要手段。基于FFA影像的定量分析将为眼底疾病的随访观察以及治疗效果的精确评价提供客观依据。但在造影过程中,病人不可避免地转动眼球,造成FFA图像序列中感兴趣区(例如视网膜血管分支、新生血管)的位置发生变
地铁盾构隧道的长期累积沉降会影响地铁正常运营和结构安全,其中列车运行过程中所产生的振动荷载对沉降量的影响较大。因此,对列车振动荷载作用下隧道结构及周围土体的动力响