越南语新闻事件检测及共指关系识别方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ivltuk70972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越南语新闻事件检测及共指关系识别,旨在检测出越南语新闻文本中句子级的事件信息,并在此基础上分析事件之间是否从不同的角度描述同一件真实事情。该任务目前存在相关语料匮乏、深层语义难以表征以及数据噪声问题。因此,本文基于多头注意力机制以及生成对抗网络,对越南语新闻进行深层语义挖掘与数据降噪,提升了越南语新闻的事件检测及共指关系识别的性能。论文主要工作如下。(1)越南语新闻事件检测及共指关系识别语料构建。由于缺乏公开的越南语新闻语料,为支撑模型训练,通过爬虫技术从互联网上爬取大量越南语新闻数据,并针对事件检测和事件共指关系识别任务对原始新闻数据进行预处理和标注,构建了用于事件检测的越南语新闻语料库和用于事件共指关系识别的事件语料库。(2)融合句法信息及多头注意力机制的越南语新闻事件检测方法。针对越南语新闻句中深层语义难以表征以及触发词的识别存在歧义问题,提出了一种融合句法信息及多头注意力机制的越南语新闻事件检测方法。通过在Transformer的编码端将句法信息与文本信息进行融合,加强新闻句中任意单词与其他成分之间的语义关联性,以及采用基于多头注意力机制的类型感知器捕获句子中潜在的触发词信息,进而实现越南语新闻的事件检测。实验表明,所提方法与基线模型相比取得了更好的性能。(3)基于生成对抗网络的越南语新闻事件共指关系识别方法。由于事件信息比实体信息复杂导致事件共指关系识别的难度远远大于实体共指消解。同时,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的情况,容易对模型造成干扰。因此,提出一种基于生成对抗网络的越南语新闻事件共指关系识别方法。采用事件上下文作为事件句的表征,并通过生成对抗网络来缓解文本中的噪声实例,以提高模型的抗噪能力。实验表明,提出方法较基线模型取得了更好的效果。(4)越南语新闻事件检测及共指关系识别原型系统。通过集成越南语新闻和事件语料库、事件检测算法与共指关系识别算法,构建了可视化的越南语新闻信息获取平台。
其他文献
在中国经济的迅猛发展下,居民的消费水平日益提高,越来越要求高效、快捷、方便的服务,而快递业在电子商务和数字新基建的背景下,满足了人们的这种消费需求,也越来越成为居民生活中不可或缺的服务性行业。对于监管云南省内所有快递公司的云南邮政管理局而言,科学合理的预测云南省快递业务量,是进行快递行业设施规划、投资决策、风险评估中的重要环节。因此,本论文旨在构建云南省快递业务量预测模型。按照乡级、县级、地级、省
学位
我国城市化进程不断加深,城市中人们以小区为单位集中居住,这就会衍生出一系列消防问题。根据消防与安全协会统计2020年居民住宅火灾就高达10.9万起,人民的生命财产安全受到严重威胁,所以国家在全国范围内举行了清理楼道等公共区域的活动,但是这些活动都只能保证楼道一时的清洁与安全。当活动结束后,之前的问题又会逐渐浮现出来,灾难并不会只挑你做好准备的时候到来,所以就需要楼道时刻保证不存在安全隐患才能够起到
学位
GIS具有可靠性高、结构紧凑、占地面积小等优点,所以大量使用在电力系统中。GIS中隔离开关开合闸时将产生VFTO,VFTO将对GIS本体及一次侧设备造成极大的绝缘故障,因此怎样抑制VFTO具有重要研究价值。现有加装阻尼电阻、改造成阻尼母线等方法,这些方法存在改造困难、故障率反而增大、可能产生更大谐振过电压危险等问题。经过研究对比发现,磁环抑制VFTO具有维护方便、可靠性高、经济技术性好等优点。但磁
学位
神经机器翻译模型在资源丰富的语种之间具有较好的翻译效果,但是在低资源语言之间翻译效果不佳。由于缺乏大规模的平行句对,模型在处理更大的词汇量方面有一定的局限性。通常神经机器翻译系统将源语言和目标语言中的常见单词作为词汇表,不在词汇表中的单词用UNK(Unknown Words)代替,这可能会忽略较大的文本粒度所携带的信息,如:命名实体,从而会影响翻译结果的质量。对此本文提出了融入双语实体的汉越神经机
学位
农业作为中国经济发展的根基,农业机械化在其现代化中占据关键位置,所以在此种形式下,人们关注的重点聚焦到农业机械上。本文着重于水果采摘机械的前期研究工作,致力于解决其中果实识别因光线不足导致识别精确率不高的问题。文中首先对实验平台进行搭建,文中移动式平台底盘为了安全准确的在果园中行走,需对果园的环境进行建图,对果树以及障碍物位置可进行感知并避开,同时对果树上的果实,在各种光线尤其是暗光条件下需保持一
学位
运用先进的机器视觉技术能在复杂制造过程中收集产品的实时数据,随后对收集的数据进行监控,能检测出复杂制造产品表面精度的质量问题。由于机器视觉技术在复杂制造过程中收集的产品数据主要以图像数据形式呈现,所以如何对图像数据进行统计过程监控成为一个重要研究课题。本文以图像数据为监控对象,对其发生失控点和变化点情况进行了研究。由于图像样本在检测过程中会存在样本量大小以及失控图像的偏移大小不同的情况,而不同检测
学位
钢铁产业对于国家经济发展有着重要的意义。转炉炼钢技术因为相对高效和低成本的优势,是目前世界范围内主要的钢铁冶炼技术之一,其冶炼的关键在于对转炉终点的准确控制。实际上,转炉中钢液的终点碳含量和温度与转炉终点控制有着密切的联系,也是判断钢液是否达到出钢标准的重要指标。因此,实现对转炉炼钢终点碳温精确实时预报可以有效降低转炉炼钢生产成本,提高生产效率,对于保护环境、节能减排也有着积极的意义。本文针对转炉
学位
Fe-Mn-Al-C低密度高强度钢具有优异的力学性能、良好的抗冲击性以及较低的密度等优点,将成为未来汽车用钢的主要材料,是目前实施汽车轻量化目标的主要研究方向之一。但由于添加了大量的Al(高达13%)和Mn(高达32%),使得它在冶炼、锻造、微观结构和塑性变形机理等方面,与普通用钢的研发与设计存在着较大的差异,采用传统的试错法实验大大减缓了其研发进度。目前机器学习技术已经广泛地应用于材料性能预测以
学位
卷烟是一种特殊的消费品,通常要求吸食口感长期保持稳定。复烤企业作为烟草生产链的关键环节,实现对烟叶的初步加工及模块化配方打叶,对不同质量的烟叶进行协调搭配,为卷烟企业提供稳定的原材料。但在实际生产中,烟叶质量受气候、土质等因素的影响,复烤配方的波动性较大,复烤企业只得盲目备料、或出现配方中某等级单料烟库存不足的情况,导致库存压力以及资源占用大。因此,合理备料、提高资源利用率是复烤企业亟待解决的问题
学位
神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学
学位