基于远程监督的新闻文本人物关系识别研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:yaoyaosara
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
身处互联网浪潮之中,各式各样的信息在日常生活中以爆炸似的速度飞速增长。从大量信息中快速准确获取用户需要的信息日渐成为人们的迫切需求和研究者们关注的热点,因此信息抽取技术应运而生。关系抽取隶属于信息抽取,是其中的一个子任务,人物关系抽取又是其中一个具体的研究方向。新闻文本作为当下人们获取信息的主要来源之一,大多以非结构化或半结构化形式分散于繁杂的互联网资源中,这些文本中可能包含了大量的人物实体及人物关系信息,如何从海量新闻文本中准确抽取各人物实体之间的关系成为了一大研究热点。从互联网新闻文本中得到的人物关系可用于构建人物关系图谱和知识库;用于情报搜集任务时可以分析特定人物的关系网;用于舆情任务时也能根据人物关系对舆情的监测起到一定作用。有监督的关系抽取方法训练模型需要人工标注的数据集为基础,而人工标注的方法效率不高且成本高昂。为了解决人工标注数据问题,人们采用远程监督思想进行数据自动标注,但远程监督会带来噪声问题和数据稀疏问题。针对这两个问题,本文开展基于远程监督的人物关系识别研究。本文将从以下几个点介绍我们的研究内容:第一:基于同义词林和规则的中文人物关系识别方法。通过计算《同义词林》中可表示人物关系的关系触发词词向量与远程监督训练集中所有词语词嵌入向量的余弦距离,选取余弦距离较小、与关系触发词相关性较大的词语,用于扩展《同义词林》中对应词簇下同义词的数量。得到扩充后的人物关系触发词簇后,再结合中文人物关系的特定句式搭配等规则和多示例学习思想识别单一人物关系,最后对一个bag中的所有句子进行多关系预测得到最终的人物关系识别结果。第二:基于Bert-Bi LSTM的中文人物关系识别方法。在已有的基于同义词林和规则的中文人物关系识别方法基础上,首先利用该方法对远程监督人物关系数据集训练集进行去噪处理,找出训练集中的假阴性噪声扩充正样本的句子数量,剔除训练集假阳性噪声句子;随后利用中日文互译的方式对去噪后的正样本进行数据增强;将去噪和增强后的数据作为Bert-Bi LSTM模型的输入,结合Focal_loss损失函数调节模型对正负样本的关注度,得到改进后的人物关系识别结果。第三:基于本文的研究内容搭建原型系统对远程监督新闻文本进行人物关系的识别,并加以展示。构建的原型系统可以处理用户给出的包含人物实体对的新闻语料或我们利用远程监督思想爬取新闻网站构建的部分语料,根据已有的工作对语料做预处理、输入到模型并识别人物关系,最后将得到的人物关系以文本和图谱的方式直观的展示给用户。本文依据公开的中文远程监督人物关系抽取数据集,在此基础上根据提出的方法进行人物关系识别相关实验并搭建原型系统,通过实验证明了本文提出的远程监督人物关系识别方法的可行性和准确性。
其他文献
日冕喷流是太阳大气中普遍存在的太阳活动现象,对它的研究有助于揭示太阳大气中的能量传输和释放的机制。它往往发生在相对比较小的区域,和磁浮现和磁对消密切相关。如果能很好的把太阳大气中的喷流识别出来,特别是小的、弱的喷流,就可以清楚知道日冕喷流到底对太阳风加速和日冕加热起多大作用。在以往的研究中,喷流爆发的同时,会有耀斑或者日冕物质抛射的发生,所以对于日冕喷流的检测也有利于其他太阳活动现象的研究。随着科
随着互联网的飞速发展,P2P系统以其快速、可靠的性能越来越成为共享经济时代不可忽略的重要组成部分。而针对P2P信誉系统的女巫攻击通过注册大量节点与目标节点交互,利用不公平评价操控目标节点的信誉变化,对系统造成严重破坏。因此,如何有效抵御女巫攻击成为保障P2P系统稳定运转的重要问题。然而,现有关于女巫攻击防范的研究多侧重于对女巫攻击者操控的节点(女巫节点)进行探测,利用深度学习或者贝叶斯网络等技术将
我国矿产资源丰富,各式的矿物品种种类多、储量大。开采矿产资源不可避免的会破坏矿区的生态环境,导致滑坡等地质灾害。为预防灾害的发生,需要对矿区进行长期连续的监测。合成孔径雷达干涉测量(InSAR)技术被越来越多的应用到矿区的形变监测中。露天矿是一种特殊的土地利用单元,在矿区中往往形变梯度大、采区裸地多、人工地物少、矿区周边植被茂密,常规的时序InSAR技术能够获取矿区监测点的密度较低。引入分布式目标
近年来,红外与可见光图像融合在各种基于视觉的应用中具有重要意义,因此受到越来越多的关注。然而,现有的融合方法中,一般都要求输入的多张源图像和输出的融合图像的空间分辨率一致,这在很大程度上阻碍了这些方法在实际场景中的应用。并且,当源图像分辨率都较低时,得到的融合图像分辨率也会比较低,即所包含的信息不够充分。针对这些问题,本文提出了一种基于元学习的任意分辨率的红外和可见光图像融合网络,有效提高不同分辨
平行句对抽取是缓解低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。但是目前平行句对抽取的方法都是基于句子语义相似性度量,并没有考虑不同词语在句子中语义表征的难易程度,同时主要集中在句子级别,忽略了文档级上下文信息以及图像所包含的信息,提取到的句子语义信息不充分,抽取到的平行句对质量不高,导致了汉-越神经机器翻译(Neural Machine Translation,NM
服装作为电子商务涉及最早的品类,已经成为规模最大、发展成熟的行业。网上服装销售具有很多传统模式不具备的优势,可使用户充分享受网络购物的乐趣和互动体验。服装迁移技术作为虚拟试衣系统的核心技术,越来越受到人们的关注。然而,如何帮助用户快速准确地找到个性化的服装以及人工智能辅助服装设计逐渐成为难点。为了辅助设计师设计时尚服装,而且可为用户提供个性化的数字服装定制,本文提出了面向服装创意设计的风格迁移方法
老挝语是老挝人民民主共和国的文字,作为“一带一路”重要盟国的老挝,其研究意义重大,由于老挝语使用人口少,且数字化落后,故从网络直接获取老挝语文本语料较为困难,但存在大量老挝语文本图像,因此,如何从现有文本图像中准确识别老挝语字符序列用以扩充老挝语文本语料,成为目前老挝语自然语言处理研究重点之一。光学字符识别可有效提取文本图像所含字符,但目前老挝语文字识别研究寥寥无几,故本文参考相关文字识别研究,提
案例推理是一种发展较为成熟、利用过往知识解决具有高度相似特征问题,并学习解决方案的方法。在检索案例时,对于庞大的案例库,传统KNN检索算法在处理线性问题时,需要对所有案例进行匹配。因此,存在时间成本高、效率低的问题。为此,现在大多研究都是对整个案例库聚类,形成具有不同特征的类簇。谱聚类算法作为一种基于图论的聚类算法,不同于一般的聚类算法,它不仅对样本集的空间分布特征没有要求,同时聚类的结果还是全局
材料基因组倡导发挥材料大数据的作用,采用机器学习变革材料研发文化。铝硅合金(Al-Si)具有强度高、耐磨性好且热膨胀系数小等性能特点,广泛应用于汽车、航天和电子工业中。Al-Si合金性能主要由合金微观组织中初晶Si相的形状及大小决定。目前,由于试验费用太高,时间成本巨大,微观组织图像的获取较为复杂,但它存在于公开发表的文献中。因此,本文采用深度学习方法从Al-Si合金文献中提取插图及标题,并筛选出
虚拟试衣能有效增强用户的网络购物体验,准确理解着装人体图像中以人为中心的语义区域,对辅助虚拟试衣起着重要作用。但由于着装人体图像服饰繁多,姿态各异,具有丰富的纹理和复杂的背景,使得准确理解图像变得困难。本文针对着装场景中人体姿态、边缘轮廓、服装配饰的复杂性以及人体部位关节点的遮挡等因素,导致人体解析结果不够精确的问题,结合边缘轮廓、姿态特征和粗解析特征,通过定义的结构损失和人体解析损失的组合函数进