句子级端到端事件可信度识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:kenkenson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件可信度是指面向特定事件源的事件发生的可信程度。目前事件可信度识别缺乏在生语料上的研究,并且仅考虑事件在默认源下的事件可信度。对此,本文进行句子级端到端事件可信度识别的研究,识别生文本中的事件、事件源以及对应的事件可信度,更具有现实意义。首先,事件可信度的已有研究大多数依赖于标注信息,没有考虑到事件可信度识别在生语料上的性能,同时也忽略了事件源对事件可信度的影响。针对这些问题,本文提出基于混合模型的方法进行端到端事件可信度识别。该方法将事件、事件源、线索词等信息和相关依存路径信息进行融合,利用混合模型BiLSTM+GCN从端到端方法识别事件可信度。实验证明该方法优于基准系统,在FactBank语料库上的Micro-F1和 Macro-F1 分别提升了 1.79%和 8.67%。其次,由于基于混合模型的方法流程复杂耗时且级联误差严重。针对这些问题,本文提出了基于GCN的联合模型的方法,旨在简化流程的同时,加强事件、事件源和事件可信度识别之间的联系。同时针对事件一词多义的问题,本文提出使用BERT对句子进行编码,并辅以语言学特征(词性、依存关系、词原形)来加强单词的语义表示。本文使用GCN捕获事件的句法和语义特征,并融入事件和事件源信息进行事件可信度识别。实验证明该方法优于基准系统,在FactBank语料库上的Micro-F1和Macro-F1 分别提升 2.31%和 1.44%。最后,英文数据存在表述不直接导致模型难以正确识别事件可信度的问题。针对这类问题,本文提出使用基于跨语言信息提高事件可信度模型的性能。为了探究跨语言信息对事件可信度的影响,本文使用基于跨语言词向量、跨语言数据增强、跨语言特征的不同方法进行端到端事件可信度识别。实验结果证明,跨语言信息能够有效提升模型性能,其中基于跨语言特征的方法最为有效,与基准模型相比,在FactBank语料库上的Micro-F1和Macro-F1分别提升了 4.11%和8.32%。本文针对句子级端到端事件可信度识别研究中存在的问题,提出对应的解决方法,提高模型性能,有助于端到端事件可信度识别的进一步研究。
其他文献
2018年11月5日,科创板设立并试点注册制,国家设立科创板目的是给企业创新营造一个良好的资本市场环境,进而提升国家整体实力。科创板上市企业大部分是硬科技企业,具有的普遍特征是研发支出多。由于研发活动具有较高的资金风险,所以要准备充足的自由现金流规避资金风险。充足的自由现金流是企业进行研发支出,开展研发活动的驱动因素,研发支出的增加利于企业提高自身的创新能力,创新能力的提高可以有效促进企业实现可持
学位
最近,人机对话系统因其巨大的学术价值和商业价值而受到越来越多的关注。随着社交媒体和深度学习技术的迅猛发展,聊天机器人在生活中发挥着广泛的作用,它不仅可以满足人们的沟通需求,而且节省了企业的服务成本。为了更符合实际应用,人们往往研究多轮对话生成系统,这样可以利用更多的历史对话信息,同时也对如何更好地捕捉符合对话场景的特征提出了新的挑战。为了更好地对上下文信息进行建模,在多轮对话生成中,需要针对对话约
学位
互联网自问世以来,引发了席卷全球的信息化潮流,并逐步将第三次科技革命推向高潮,对人类生活的方方面面发起了颠覆性的改变。在此浪潮之中,诸多互联网企业迅速成长,研发出新颖的盈利模式、商业模式和先进技术,普遍具备高成长、高风险的特征。近年来,针对这一类企业的估值问题逐渐成为业界关注的焦点。但是这些企业收益的不确定性、市场数据和历史估值数据匮乏,直接导致了盲目套用传统估值方法往往造成结果上的巨大偏差,也使
学位
在我国,民歌是不同民族、地域、时代风土人情和人文精神的一种展示。作为传承地方音乐文化的载体,民歌是音乐鉴赏教学中不可或缺的一部分。在2017版《普通高中音乐课程标准》中明确了“弘扬民族音乐”的基本理念,音乐教育者开始密切关注音乐学科核心素养。其中引导学生通过音乐感知和艺术表现等途径,理解不同文化语境中音乐艺术的人文内涵是高中音乐鉴赏教学中的重要目标。在民歌鉴赏课中,从文化理解的视域引导学生理解民歌
学位
随着移动互联网的飞速发展以及大数据时代的来临,用户通过终端能获得的信息量爆炸式增长,产生了“信息过载”。为了从海量信息中挖掘到用户感兴趣的信息,推荐系统应运而生。其中,POI(Point of Interest)推荐是推荐系统中的重要场景。POI推荐旨在根据用户的历史交互序列,学习出更准确的用户兴趣表示,以便于向户推荐感兴趣的景点。但在现实生活中,历史交互序列无法反映出用户的当前动态偏好。而对话推
学位
事件检测是信息抽取领域的一个重要子任务,其主要目的是根据上下文识别出句子中的触发词及其事件类别,对于开发自动信息提取技术有着重要的意义。自然语言中事件信息的多样性为该任务带来了很大的挑战,本文从研究句子事件类别信息的角度入手,主要研究内容如下:(1)基于句子类别聚类的事件检测方法针对目前大部分事件检测研究忽略了句子之间事件关联的问题,本文从事件聚类角度出发,提出了一种基于句子类别聚类的事件检测方法
学位
元学习旨在充分利用少量的数据,学习出高效通用的知识,从而快速适应新任务。相比于传统深度学习,元学习降低了对大规模数据集的依赖,在一些难以获得大量数据的实际场景中具有较好的应用前景。目前元学习已取得许多卓越的研究成果,但在基于度量的元学习研究方向中仍然存在数据特征质量不高、度量方式不够适用、算法自适应性不强的问题。本文针对以上问题进行研究,具体创新点如下:(1)提出了特征自适应元学习算法,主要针对数
学位
研究如何运用设计手段发展乡村旅游,对改善乡村人居环境乃至整体推进乡村振兴战略,都具有重要意义。随着时代的发展和认知的进步,人们在进行旅游活动时对居住空间的需求也在逐渐发生变化。可移动屋舍具有灵活性强包容度高、可变性强、与乡村环境融合较好等特点,与乡村旅游发展中待解决的个性化、差异化、经济化、实用化等需求完美契合。文章从乡村旅游中可移动屋舍设计入手,力争通过“小切口、大纵深”的研究方式,通过使用文献
学位
随着全球学术活动蓬勃发展,学术文献的数量和学术研究者的人数与日俱增。因此,数字图书馆、学术搜索引擎等科技服务应运而生,为学术研究者提供了便捷的信息检索服务。然而,由于作者姓名的歧义性,文献知识库无法保证返回数据的准确性。这大大影响了人们学术活动的准确性和效率。在这一背景下,对于同名作者消歧问题的研究是很有意义且必要的。针对该问题,本文的研究内容概括如下:(1)为了有效地处理属性特征丢失严重的情况,
学位
随着移动定位设备的普及和网络通信设施的完善,海量轨迹数据能够被实时地收集。这类时空轨迹数据可用于轨迹知识挖掘、信息提前获取,如驾驶异常检测、交通拥堵监测与预测、疫情下人群聚集行为监测等应用场景的建设。时空轨迹大数据具有传统大数据的4V特性,并且其信息价值将随着时间流逝而衰减,如对于交通路况信息,即时的结果信息发布将能更有效的规避道路拥堵,为此实时处理轨迹数据将是本文重要关注点。轨迹聚类是上述城市应
学位