基于深度学习的中文实体关系提取研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jtk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的日益进步,与之伴随的就是信息的海量增长,其中绝大部分的数据格式都为非结构化数据,文本形式的数据又在非结构化数据中占据了很大的比重。因此,如何将文本中的非结构化信息转变为便于计算机理解的结构化信息。已经成为了文本挖掘领域的一类关键性问题,实体关系提取便是这类关键性问题中的研究热点。传统的管道模型的提取方法是将实体和关系提取作为了两个完全分开的子任务,由于丧失了实体与关系之间丰富的相关性信息,模型容易产生错误匹配问题。为此,学者开始尝试实体关系的联合提取,以往的联合提取模型虽然在一定程度上改善了错误传播的问题,但受限于传统的词向量的固定表示方法,以及特征提取器提取能力的限制,还是在模型整体效果的提升方面遇到了难以突破的瓶颈。本文在以往研究的基础上,提出了一种基于BERT的预训练模型架构用于实体和关系任务的提取,同时将命名实体特征、词性标注特征与预训练好的关系抽取模型进行融合,并加入了双向长短期记忆神经网络和双向长短期门控循环神经网络的结构,增强了模型的特征提取能力。事先在语料规模更大的百度百科数据集上进行了预训练,从而进一步提升了模型的效果。并采用了一种新的提取方案,在主实体识别阶段先提取出文本中的主体,然后对于每个主体,在客体识别阶段将可能与主体存在联系的客体和关系进行进一步的整体的预测。通过在标注质量颇高且业界规模最大的SKE中文数据集上进行了不同模型之间的对比实验以及模型本身的消融实验,证明了该模型具有一定的有效性和先进性。
其他文献
党的十九大报告指出,中国特色社会主义进入新时代,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。(1)党政军民学、东西南北中,党是
人们在日常工作和生活中了解社会时事热点的渠道主要是新闻报道,通过新闻报道人们对每时每刻发生在全球各地的实事都有所了解。各个行业领域也通过新闻报道对未来的发展方向
由于金融危机的出现,人们对传统货币的信任降低,因而比特币的兴起受到了全球的关注。在2014至2016年人民币贬值的大背景下,随着央行对外汇管制逐渐收紧以及对贪污腐败的严厉打击,中国比特币市场交易量曾一度占全球总量的90%,可以说无论是作为比特币开采挖矿中心枢纽之一,还是曾经主要的交易市场,中国都对比特币市场的增长具有重大影响。目前我国已针对比特币等虚拟货币出台了一系列监管措施,尽管境内比特币交易所
在我国教育体制改革大背景下,就高职高专学段学生的教学工作,除重视专业技能的培养外,还应不断提高对其心理健康教育工作的开展。其中,辅导员作为学生在校学习、生活的辅导老
通过青岛国际会展中心的工程实践,研究并应用了大体积预应力混凝土结构施工技术。提出了如何配制抗裂、早强型预应力高性能混凝土和检测大体积混凝土结构实体强度的方法;结合
教学质量的提高是保证高等教育质量的核心和关键。新升格本科院校要在激烈的高等教育竞争中立于不败之地,就必须致力于教学质量的提高,尤其是要在分析影响教学质量提高的因素
"二七"大罢工时期,京汉铁路工人无论是工作、生活条件,还是社会地位,都不低于当时的普通工人,他们积极参与工会以及工会组织的罢工,并不是因为其较差的生活状况,而是铁路工会给
《中华人民共和国物权法》(以下简称《物权法》)于2007年3月16日第十届全国人民代表大会第五次会议通过,自2007年10月1日起施行。《物权法》规定:“国家、集体、私人的物权和其他
分析了高校目前计算机基础实验教学存在的问题,结合学生的需求,提出了计算机基础实验教学改革的方法和途径。
"万米单元网格城市管理新模式"是高科技信息集成技术在政府城市管理创新方面的一次重大突破,城市部件数据作为城市管理信息系统的基础数据发挥着至关重要的作用,而城市部件及事件的准确和快速定位则依赖于兴趣点的有效使用。通过对北京市西城区城市管理信息系统中兴趣点具体使用经验的总结,对兴趣点的选择、使用、维护、测量方法进行了全面阐述。