领域实体关系抽取的迭代建模研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Mijieer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前领域实体关系抽取一直面临着语料不足的问题。语料标注是一项极其耗时且繁琐的工作,采用完全的人工标注方法,将耗费大量的人工成本。而传统基于半监督或者远程监督扩充语料的方法,又存在错误标记的问题,获得的语料质量一般较低。目前,各领域实体关系抽取的研究工作存在各自为政的情况,没有一个较为通用的建模方法。针对领域实体关系抽取的发展需求,为了缓解领域标注语料不足的问题,本文提出一种通用的领域实体关系抽取的建模方法,并且提出了一个实体关系联合抽取模型。提出了基于完全注意力机制的实体关系联合抽取模型。注意力机制是当前人工智能领域比较热门的研究课题,很多模型因为加入了注意力机制而有了大幅提升。现有的实体关系联合抽取模型,一般只在基础词嵌入时引入注意力机制,而在关系表示时忽略了注意力机制。本文模型通过在基本词嵌入、实体嵌入、关系嵌入中都融入注意力机制,对Sci IE(Scientific Information Extractor)模型进行了改进。对于Sci ERC和Co NLL04两个数据集,本文模型在实体抽取任务中获得了68.4%和88.2%的F1分数,比对照方法提高了4.9%和0.5%,在关系抽取任务中获得了47.1%和69.9%的F1分数,相比对照方法,提高了13.2%和1.5%。提出了基于人工干预和迭代建模构建领域实体关系语料的方法。通过使用少量的标注语料训练基础模型,然后基于模型预测生成新样本,并基于人工干预对模型预测进行修正,通过迭代建模不断提升模型效果和语料规模。本文归纳提出了四种迭代建模模式,分别是增量热训练、增量冷训练、移动热训练、移动冷训练,并分别进行了模拟迭代建模的实验,比较了四种模式效果的差异,对建模效果进行了定量分析。在模拟数据中,本文的迭代建模方法比纯人工标注方法节约了最多39%的人工成本。本文使用网络搜集的数据,开展了迭代建模的实践应用,最终获得了一个较小量级的领域实体关系语料,该语料包括18395个实体以及4802对关系。另外,为了方便迭代建模的操作,本文开发了一套实体关系迭代建模系统。本系统提供了标签设计、模型管理、语料标注等功能。标签设计功能可以方便用户设计实体、关系标签,模型管理功能使用户能够创建及训练实体关系抽取模型,语料标注功能提供可视化的实体关系标注方式。
其他文献
“有准备的教育”理念下的班主任校本培训立足学校管理背景,厘清班级管理的内容板块,建构班主任专业知识体系;依托校本班主任工作坊,鼓励班主任互动研发、分享班级事务管理流程和个性化班级管理表单工具,为班主任提供专业支持,促进班主任从经验型走向决策型,提升班级管理专业化水平,养成专业成长自觉。
<正>问我是小学三年级的班主任。我们班有个男生特别聪明,但上课的时候经常提稀奇古怪的问题,影响教学秩序。我该怎样办呢?策我最近在一所学校听课,学生问老师:“你上次说‘枪打出头鸟’,现在又说‘早起的鸟儿有虫吃’,这不是矛盾了吗?我该听哪一句呢?”老师瞪了他一眼,下课还气呼呼地说:“这个学生就是爱钻牛角尖!”
期刊
受陕北地区沟壑纵横的地形地貌、语言、传统民俗文化等各要素的共同影响,陕北民歌所表现的艺术风格比较特殊,在全国各地民歌中有着较为鲜明的独特地域特点。绝大多数的陕北民歌都是来自乡土人民的日常生活,是对陕北地区人民日常生活的现实反映,真实的表现了陕北人民老实淳朴的生活品质,是由陕北劳动人民用自己的勤劳才智和汗水所创造的人生史诗。而陕北民歌的创作历史悠久,有着厚重的文化背景,是陕北地区民众表现心灵情感的主
<正>问现在有很多家长,根本听不进老师的意见,有的家长看似听了,实际操作的时候,仍是我行我素。作为班主任,怎样才能真正取得家长的支持呢?策前段时间,一位家长告诉我,他的孩子不愿意上学了,原因是他听了班主任的话,把家里的网线给断了。看到这里,不知你怎么想。其实,谁都知道,孩子厌学原因很复杂,但这位家长首先把责任推到老师身上,
期刊
以电子类专业为例,阐述中高职贯通课程体系的教学实践,包括课程目标、课程内容、课程结构,案例分析C语言程序设计课程目标、课程设置的比较。
近年来,命名实体识别(Named Entity Recognition,NER)和实体的关系抽取(Relation Extraction,RE)都已经成为自然语言处理(Natural Language Processing,NLP)领域的研究热点,也是知识图谱构建(Knowledge Graph,KG)的关键任务。命名实体识别用于从自由文本中识别出相应的实体,关系抽取旨在从文本语料库中提取两个实体
笛子协奏曲《兰花花》由我国著名笛子演奏家詹永明和作曲家杨春林根据陕北民歌《兰花花》和二胡演奏家关铭老师创作的二胡曲《兰花花叙事曲》改编而成。乐曲具有浓郁的西北方地域特色,以民歌“信天游”作为乐曲创作素材,秦地风格鲜明。笔者通过对相关论文的阅读与分析,了解竹笛协奏曲《兰花花》的音乐特点和演奏技术,对竹笛协奏曲《兰花花》的特殊技巧和情感意韵进行了深入探究。
近年来,随着大众收入的提高,人们对于投资理财的需求日趋强烈。网络上金融信息的特点多数呈现规模庞大闲散,并且金融事件的发生具有渐变性和不确定性,另外相关信息夹杂在大量的无关信息中,由此导致一方面该领域非从业人员对于专业知识的掌握困难且复杂,很难发现投资风险;另一方面很多人不具有风险防控意识,投资失败,甚至受骗事件时有发生。因此,如何从众多的网络信息中抽取出金融事件,对于大众金融风险防控具有实际应用价
为了对比不同离子液体在纤维素中的溶解效果及不同抗溶剂下的再生效果,研究了纤维素在不同咪唑基离子液体中的溶解及再生实验,并对再生后的纤维素进行表征。结果表明,离子液体对纤维素的溶解是一个物理过程,纤维素再生前后的晶型由I型向II型发生转变。纤维素在[Emim]OAc离子液体中100℃、95 min,其溶解率为100%。不同离子液体溶解效果为[Emim]OAc>[Bmim]Cl>[Amim]Cl>[E
熔融沉积成型技术(FDM)具有成型效率较高、操作简便等优点,在零部件制造领域受到了广泛的关注,已成为应用范围最广的3D打印技术。随着工业产品竞争日益激烈,高性能的打印耗材是阻碍FDM技术更进一步发展的主要瓶颈之一。具有较高强度、低密度的聚醚醚酮(PEEK)正逐步代替金属和陶瓷等材料在轻量化要求较高的领域中的应用,但其耐磨性能较差。因此,如何进一步提高PEEK耐磨性是推进PEEK零部件FDM在再制造