基于代价敏感的远程监督关系抽取关键技术研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:houguangyun1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的爆炸式增长,如何帮助人们快速地从海量的非结构化文本数据中发现知识及理解这些数据,同时将这些文本表示成计算机能够“理解”的形式,以减轻人的学习成本已经变得越来越重要。信息抽取技术正是在这样的环境下产生。关系抽取技术是信息抽取技术中的非常重要的一部分,它旨在从结构化或非结构化的文本中自动识别出一对实体和这对实体之间的语义关系,然后以三元组的形式表示句中已标注的实体及实体对之间的关系。目前有监督的关系抽取方法被证明是有效的,并产生相对比较好的效果。但是,有监督的方法通常需要大量标记的训练数据,而人工标注数据费时费力。为了解决训练数据不足的缺点,远程监督方法被提出来自动产生训练数据集。远程监督的假设为:如果两个实体在已知的知识库中有关系,那么所有提及这两个实体的句子都会以某种方式表达这种关系。也就是说远程监督可以从一个备选关系出发来迭代式地扩充关系集合,从网络上发掘出更多的关系加入到备选关系中。但是由于现实世界的数据集往往是不平衡的,所以通过远程监督自动标注的数据存在明显的类不平衡问题。在不平衡数据集下训练的分类器对样本数量占多数的类具有更强的偏向,导致少数类不能被正确的分类,使得模型的效果受到较大的影响。本文主要研究基于卷积神经网络的远程监督关系抽取下的类不平衡的问题,具体工作如下:(1)首先,介绍了实体关系抽取的相关意义背景和理论技术基础,如卷积神经网络的相关理论和多示例学习相关理论,然后,对目前处理不平衡数据集的一些方法进行了比较和分析。(2)其次,本文针对远程监督关系抽取过程中产生的类不平衡问题,提出代价敏感的排序损失,通过加大对少数类错误分类的惩罚,也即,如果一个类,其样本数量占少数,则该类样本被错误分类时,让其比多数类错误分类时付出更多的代价,从而减小训练过程中对多数类的偏向,以此来提高关系抽取的准确率和召回率。(3)最后,由于不平衡数据集下学习的性能很大程度上取决于类间的可分离程度,因此,本文引入对类可分离性的度量,通过将类可分性和代价敏感相结合,更进一步改善远程监督关系抽取中类不平衡的问题。
其他文献
由于双金属复合管的性价比相对突出,故当今油气运输行业正广泛应用双金属复合管。但由于双金属复合管的衬里和基材的理化性能有较大差异,在应用过程中难免会出现各类腐蚀穿孔
我国是聚烯烃产品消耗大国,对于高品质聚烯烃的需求在逐年增长,而催化剂决定了聚烯烃的性能,因此开发新型高性能烯烃聚合催化剂至关重要。为了结合水杨醛亚胺型三齿配合物与双核、多核配合物的优点,我们设计合成了一系列水杨醛亚胺型三齿双核钛配合物3a-3d和多核钛配合物13a-13c,并对其催化性能进行研究,主要工作内容如下:(1)合成了一系列新型的烷基桥联水杨醛亚胺型双核钛配合物3a-3d,通过核磁共振氢谱
人类圈是地球表层系统的重要组成部分,人类活动深刻地改变地表自然环境和大气成分。因而,获取精细的人口空间分布格局对研究人类活动驱动的历史土地利用/覆被变化和气候环境演变具有十分重要的意义。本文首先采用地理探测器,遴选影响人口分布的主要环境因子,在此基础上,采用逐步多元回归模型和随机森林回归模型,构建了以环境因子为自变量的人口密度预报模型。并对模型的精度和稳定性进行了检验,进而优选模型,以史料考证的历
随着量子力学的发展,量子信息学理论开始崛起,这个学科中囊括了数学,信息学,物理学,计算机科学等学科为一体,最近掀起一片研究热潮。量子信息理论中不仅发展了理论基础,以理
开发可持续且清洁的新能源是解决当今社会对化石能源的过渡依赖导致能源短缺以及环境污染问题的首要途径。光催化制取氢气无疑是解决上述问题的最理想的手段。共价有机框架(CO
钛合金凭借其优异的力学性能与功能特性,在航空航天、石油化工、生物医疗、海洋工程等领域具有广泛而成熟的应用,但表面性能差的缺点限制了其更深层次的应用。Ni-Al基金属间
非线性分数阶Cable方程是神经元动力学最基本的方程之一.本文研究了非线性分数阶Cable方程的数值解,考虑了神经元系统中离子运动中的反常扩散.首先在时间方向上,向后欧拉差分
川中侏罗系凉高山组是四川盆地主要产油层系之一,多口井在凉高山组见到良好的油气显示,具有较好的勘探前景和巨大的开发潜力。论文以川中地区公山庙油田公39井区侏罗系凉高山
准一维纳米材料由于其在纳米技术方面的潜在应用受到广泛关注。随着集成电路的蓬勃发展,硅扮演着重要的角色,人们相信它将成为信息时代的基石。利用密度泛函理论(density func
在航天工业快速发展的背景下,航天产品生产企业的生产安全状态良好与否显得非常重要。本研究依托中国航天科工集团某研究院的重点科研课题,旨在找到一种可以量化表达航天企业生产安全状态优劣的监管工具,基于系统安全的基本思想,将航天产品生产企业看作一个整体,引入生产安全度的概念,生产安全度是衡量企业生产安全发展态势的工具,通过筛选出影响企业生产安全态势的关键指标,并且对指标进行合理赋值、量化处理,得到能够表明