基于深度学习的中文人物关系抽取模型研究与应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户:utpaxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是自然语言处理领域的一个重要下游任务,其中人物之间的关系抽取任务是实体关系抽取中的典型任务。对语料中的人物关系进行识别和抽取,可以为构建人物社会关系网、生成用户画像以及搭建专家推荐系统提供帮助和支持。针对中文语料人物关系抽取这一课题,本文在分析了人物关系抽取的研究背景、研究现状以及相关技术之后,从标注数据集预处理,再到使用深度学习网络模型完成了中文语料人物关系抽取任务,最后搭建了一个人物关系知识图谱原型系统,期间主要开展了以下两个方面的工作:首先,本课题在大规模的中文语料人物关系抽取标注数据匮乏的情况下,在小规模标注数据集(数据量大约为30000条)上取得了良好的人物关系抽取效果。本研究基于预训练双向语言模型BERT强大的语言表征能力和特征提取能力,提出了有监督的流水线关系抽取模型。为得出最佳的模型组合以及说明模型的优越性,本研究设计了三组对比试验,实验一对比Bi LSTM和Bi GRU在捕获双向语义依赖上的表现,得出Bi GRU综合性能更优的结论;实验二对比带有不同头数的句子级的自注意力对模型性能的提升,得出带有12头注意力机制的模型的综合效果更佳的结论;实验三在实验一和实验二的基础上得出的最佳模型组合BERT_Bi GRU_ATT(12)_FC,对比该模型与其他经典关系抽取方法在本研究数据集上的表现。实验表明本文提出的模型在F1值或其他指标上均优于其他经典模型,有力地验证了本研究所提出的抽取模型在中文语料人物关系抽取任务上的有效性。其次,根据本研究提出的关系抽取模型BERT_Bi GRU_ATT(12)_FC,搭建了基于B/S架构的中文人物关系知识图谱原型系统。笔者在文中介绍了需求分析、系统设计、系统实现和系统测试,将学术研究付诸于实际应用。
其他文献
工作流系统主要应用于具有明显流程特征的办公软件,但传统的工作流系统存在着部署维护成本高、升级迭代不够简便、应用不够灵活等弊端。随着云计算技术的快速崛起,SaaS模式以其升级维护成本低、按需租赁、即开即用和扩展能力强等优势逐渐被广泛应用于软件技术领域。针对上述问题,本文结合SaaS模式和微服务框架设计并实现了一个全新的工作流系统,有助于工作流系统的资源共享和灵活应用,提高了产品的技术竞争力。本文的主
学位
随着影视动漫、有声书广播剧等产业的飞速发展,配音逐渐进入大众的视野,越来越多的配音爱好者希望利用业余时间学习配音,不仅可以增加一份收入,还能圆自己的“配音梦”。然而配音看似门槛低,实则需要专业的学习加上系统的训练与实践,其中配音情感的表达是衡量配音质量的关键因素之一。而网上出现的各类线上配音速成培训班教学质量良莠不齐,难以对学生的配音训练实践提供实时指导,学生也无法准确的评估自己配音的情感表达效果
学位
失智症是指任何导致记忆或思维能力的改变严重到足以干扰一个人的日常生活的疾病,其中最常见的失智症疾病是阿尔兹海默症。动脉自旋标记是一种使用可自由扩散的内在示踪剂测量脑血流的功能性磁共振成像技术。动脉自旋标记凭借无需注射造影剂、无电离辐射和费用较低的优点,在失智症这种长期性疾病的临床中得到广泛的运用,但遗憾的是目前尚没有公开的基于失智症的动脉自旋标记数据集。为了改善这种现状,本文深入开展了面向提高失智
学位
文本作为人类重要的交流方式,记载了大量的人类文明信息。进入现代文明后,信息技术得到了快速发展,产生了大量的短文本数据。这些短文本数据包含着许多有价值的信息,由此衍生出短文本分类这一重要的课题。然而,由于短文本数据特征矩阵的稀疏性和语义特征不足使得短文本分类面临巨大的挑战。本文针对短文本的文本表示和语义不足方面,提出了基于加入注意力机制的卷积神经网络和神经主题模型的Prod LDA-ACNN模型,基
学位
行人重识别旨在视野非重叠的不同摄像机下寻找包含相同行人的图像,是智慧城市中的重要一环,也是国内外研究的热点课题之一。然而,现阶段的行人重识别研究领域还存在两大问题。问题一是现有的方法往往需要大量高质量标注好的数据来训练模型,并且生成的模型易局限于特定的、单一的场景,不能很好地应用到新场景中,即模型可移植性差、泛化能力弱、容易出现过拟合现象。问题二是不同的监控设施的采集场景不一,不同的摄像机、光照情
学位
箱包五金件是手工业生产中较为常见的产品,随着数字经济的迅速发展,箱包生产厂商需要对箱包五金件进行信息化。一个精准的拍图识别系统可以提高箱包生产厂商完成产品信息化的效率。而一个准确率高且泛化能力强的图像分类模型是构建一个好的拍图识别系统的关键。论文针对图像分类任务中图像数据集(箱包五金件图像)的类别不平衡问题,提出了基于改进CycleGAN的图像增广方法。同时针对ResNet在箱包五金件图像识别的技
学位
甲状腺结节患病率在近年来明显上升,恶性甲状腺结节对人体的危害极大。超声图像为诊断甲状腺结节病变提供了重要的影像学依据,但诊断结果完全依赖医生的临床知识和主观判断,可能导致误诊。随着人工智能高速发展,利用深度学习识别甲状腺结节的良恶性,并辅助医生进行诊断具有重要的临床价值。为了提高甲状腺结节良恶性诊断准确率,本文使用高效通道注意力模块和特征金字塔结构改进Res Net50网络,并通过训练得到具有优秀
学位
皮肤癌是目前最常见的癌症之一。从检测和治疗层面而言,研究皮肤病图像分类算法区分恶性与良性病变具有积极意义。鉴于深度学习的迅猛发展,卷积神经网络在皮肤病图像处理中已经取得巨大突破。但是皮肤病类间相似性大、类内差异性小及图像样本有限等问题的存在,使得皮肤病识别算法仍然具有改进的空间。本文主要通过增强网络的特征提取能力和融合多模态特征的方式解决上述难题。(1)为了增强卷积神经网络的特征提取能力,提高多分
学位
多模态医学图像可以弥补各种成像形式自身的局限性,为医生快速诊断和合理治疗疾病提供可靠依据。然而,临床上同时采集不同模态的医学图像需要花费大量的时间和财力。医学图像合成与融合是获得多模态医学图像的可行途径,因此,它引起了医学图像计算界的广泛关注。针对现有的医学图像合成算法需要对不同的输入模态数量分别搭建模型,缺乏通用性和灵活性的问题,本课题提出了一种有监督的可逆变量增强网络(invertible a
学位
医学图像在临床发挥着重要作用,快速、准确地从医学图像中获取器官或病变区域是进行针对性诊疗的基础。然而在现实中,放射科医生从医学图像中量化器官或病变区域并不容易,手动分割一张医学图像大约需要15分钟,这使得医学图像分割成为了一项费时费力的工作。因此,有必要研发出能够定位、分割和量化器官或病变区域的自动化方法,通过采用自动化的医学图像分割方法,能够有效提高医学图像分析的效率,并可以有效降低临床误诊率。
学位