面向知识图谱构建的文本信息抽取技术研究及应用

被引量 : 0次 | 上传用户:p244150486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在临床医疗领域中,随着电子病历以及各种病理诊断数据的累积,医院急需一种简洁直观的数据库系统来为医生供患者信息,辅助医生对患者进行诊断。知识图谱这种超越欧几里得结构的存储系统便应运而生。知识图谱的构建需要在海量的文本数据中提取关键信息,如相关的实体以及实体间的关系,而现存的文本信息,如电子病历等往往都是非结构化的,有许多句子成分的缺失,而利用人工提取,往往面临工作量过大的问题。针对不规则的文本信息以及实现全自动化抽取文本信息的目标,本文运用深度学习的方法,对面向知识图谱构建的文本信息抽取方法进行了深入的研究,主要工作如下:(1)基于文本信息的命名实体识别(Named Entity Recognition,NER)技术的研究。针对不规则的医疗文本数据,首先利用BIO标注方式人工标注少量的精确数据,并构建各个实体的词典,利用词典对剩余文本进行粗标。选用BERT+双向长短时记忆神经网络(Bi-directional Long Short-term Memory Networks,Bi LSTM)+条件随机场模型(Conditional Random Fields,CRF),在训练过程中利用强化学习从粗标数据中筛选较好的数据进行训练,并利用训练后的模型实现了实体的自动化抽取。在病理数据上,整体NER模型的F1值提高了4.24%。(2)基于文本信息的依存句法分析(Dependency Parser,DP)技术的研究。以Biaffine Parser模型为基础,通过对比卷积神经网络、循环神经网络及其变种、Transformer为前端编码器时基础模型的效果。为解决Attention模型过深问题,本文提出了Densely Connected Transformer模型对Transformer进行了改进。以哈工大发布的新闻领域的依存句法数据及少量精标注病理数据作为训练集,对该模型进行训练,并通过自学习预热,多任务对抗训练的方法,共享部分模型参数,实现了模型从新闻领域到医疗领域的迁移。在病理数据上,整体DP模型的LAS值提高了0.63%。(3)基于文本信息的链接预测(Link Prediction,LP)的技术研究。首先,在依存句法分析的基础上,制定人工规则,抽取出实体之间的关系,构建出初步的子图谱。其次,对子图谱进行人工校准,作为后续自动化模型的标注数据。以依存句法模型中间层的特征以及节点实体特征作为训练数据,通过对比卷积神经网络与图卷积神经网络分别在局部子图与全局图中的抽取效果,构建最终的链接预测模型,并利用抽取的实体与链接构建出完整的知识图谱。
其他文献
空化是自然界的一种普遍现象,尤其在水力机械中,发生空化将给设备带来诸如噪声、振动和空蚀等严重问题,严重影响机器的性能。空化的研究大量集中在单空泡的坍缩溃灭过程,理解单空泡的运动过程对空蚀研究具有重要意义。实际情况下,空泡内容物为气/汽体,根据空泡内容物的凝结属性,将空泡内容物分为非凝结气体和凝结气体(蒸汽)两种;非凝结气体的空泡动力学属性通过空泡动力学方程进行理论求解,凝结气体的空泡演化溃灭过程通
学位
炎黄时期部落众多,文化多元发展,其中炎帝文化、黄帝文化、蚩尤文化影响力最大,多种文化相互碰撞,在战争与融合中逐渐形成了早期中华文明,它是中华民族延续与发展的基石。远古文化存在于中华民族的基因中,是千万年来中华儿女的集体无意识精神内核,是中华民族发展延续的不竭动力。本文从黄帝战蚩尤神话及其衍生故事中探寻中华文化的基因谱系,寻找中华文化的生命力之源,同时发现远古和现代的联系,溯本清源。
期刊
海外工程物流项目的成功实施离不开有效的风险管理。本文通过阐明海外工程物流项目风险管理的必要性,以及通过对环境、管理和第三方物流等主要因素对海外工程物流项目风险管理产生的影响进行深入、全面的分析,提出相应的优化措施方案,为企业开展有效的风险管理提供参考。
期刊
美国的芯片产业政策起源于美俄太空竞赛期间的军工采购,发展于美日贸易争端中的芯片竞争,并在拜登政府执政期间再次回归。在此过程中,美国芯片产业政策分别从国内扶持、国际合作以及出口管制三个维度演进完善,形成拜登政府以投资国内芯片产业、巩固盟友合作和对华技术脱钩为策略的产业政策。但该政策受制于美国的政治经济生态,面临多层次的复合困境,其中既包括政策制定落地中的“信息困境”“寻租困境”和“现实困境”,也包括
期刊
离心泵作为一种输送流体并使流体增压的叶片式流体机械,广泛的应用于石油化工、航天航空、农业灌溉、泵站引水、核电站等众多领域。通常情况下,离心泵输送的流体为单相液体,但在工程实际应用中,离心泵、特别是半开式叶轮的离心泵也用来输送含有一定含气量的液体,半开式叶轮离心泵由于存在叶顶泄漏流动,可以提高泵内气液两相间的混合程度,使其在气液两相流条件下的性能优于闭式叶轮离心泵。而叶顶间隙的变化会对半开式叶轮离心
学位
胶东是当今世界仅有的探明金资源储量超过5000 t的三个金矿省之一,随着地质勘查程度的不断提高,其找矿方向逐渐由浅表矿转向覆盖区深部隐伏矿。土壤微细粒分离技术是一种能反映深部异常信息的深穿透地球化学勘查技术,已在多种景观区取得成功试验案例。本文选择胶东冲积土覆盖区曲家隐伏金矿及其外围开展土壤微细粒分离技术的勘查试验。结果表明:相比于中国土壤、山东省土壤、烟台市土壤背景值,研究区内Au元素高度富集,
期刊
<正>EPC工程物流项目执行难度大,风险突出,国际货代企业需要根据每个项目情况的不同,前置风险识别工作,科学把控风险,提前制定合理有效的风险管理制度和防范措施,确保EPC工程项目的顺利交付。在全球经济呈现出多元化与复杂化趋势的背景下,随着众多的中国企业“走出去”,在世界各地承揽EPC工程项目,我国的国际工程物流业务正向着国际化的方向发展。EPC工程物流涉及进出口、仓储、装卸、海运、项目所在国内陆运
期刊
<正> 在现代战争中,导弹具有射程远,威力大、准确性比较高的特点。所以,被视为在现代战争中的一种重要武器之一。有人称它为“兵器之神”、“天之骄子”!
期刊
智能推理问答是知识图谱领域的重要研究方向,是在信息检索基础上以简单明了且不失准确性的语言为问题做出解答。近年来,图神经网络和知识图谱的结合已成为解决知识图谱推理问答的新手段。然而不全面的数据来源使得知识图谱比较稀疏,需要根据已有的知识对答案进行推理,从而对问答系统提供更好的支持,因此知识图谱推理问答具有很大的研究价值。针对现有神经网络推理问答方法存在推理过程透明度低、对答案的可解释性不足以及对多步
学位
阅读可以使学生养成良好的学习习惯,初中英语教师可以采取整本书阅读的教学方式提高学生的阅读能力。在“双减”背景下,教师在教学实践中要不断优化和完善教学方法,提升自身的英语专业素质和教学能力。从教学实践出发,通过对初中学生英语阅读能力的分析,提出初中英语整本书阅读教学的策略,提高阅读教学质量和效率,促进学生的全面发展。
期刊