基于带噪观测的远监督神经网络关系抽取

来源 :吉林大学 | 被引量 : 0次 | 上传用户:HUANming520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的关系抽取任务需要大量的人力物力标注数据样本,高昂的代价让研究者们望而生畏。因此远监督关系抽取方法应运而生,其最大优势是通过知识库和自然语言文本的自动对齐生成标记数据。但这种机械地自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型。本文针对远监督关系抽取任务中的标记噪声问题,从两个角度出发,构建了两个新的关系抽取模型。一方面针对现有远监督关系抽取方法均没有考虑到噪声分布的先验信息问题,提出“最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果”这一假设。并在该假设基础上,构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层构成的新型关系抽取模型。首先,通过词性标注额外丰富了模型的语义信息,并将其与词向量进行拼接,避免不加区分一词多义带来的歧义对模型性能的影响。然后模型利用自动标记的数据学习真实标签到噪声标签的转移概率,并在测试阶段通过真实标签输出层得到最终的关系分类。最后,研究带噪观测模型与深度神经网络的结合,重点讨论了基于深度神经网络编码的噪声分布注意力机制、以及深度神经网络框架下不均衡样本的降噪处理。另一方面现有远监督关系抽取都没有考虑损失函数的内在噪声鲁棒性对远监督关系抽取任务的影响。本文则根据损失函数的内在特性来缓解噪声标签问题。首先我们分析了已有的远监督关系抽取模型中交叉熵抗噪性和精度,分析结果表明使用交叉熵损失函数的模型精度较高但对噪声比较敏感,同样分析了神经网络模型中的平均绝对误差损失函数,使用平均绝对误差损失函数的模型收敛较慢、精度较差,但噪声鲁棒性较强。为了保持模型精度的同时并提高噪声鲁棒性,本文采用Box-Cox变换来尽可能地结合两种损失函数的优势,构造了一个噪声鲁棒的远监督关系抽取模型,其关系抽取效果有了进一步的提高。本文的主要贡献在于:(1)从一词多义的角度去提取了模型输入端的语义特征,采用基于语义特征的CBOW模型,使模型在整体上更加鲁棒;(2)考虑了远监督关系抽取数据集中噪声分布的先验信息,以此模拟样本由真实标签转移为噪声标签的概率,并对样本不均衡中噪声标签问题做了局部降噪处理;(3)在远监督关系抽取任务中首次考虑了损失函数的内在噪声鲁棒性,结合了平均绝对误差损失函数和交叉熵损失函数的优点,引入负Box-Cox变换。通过该损失函数的内在抗噪性提升远监督关系抽取性能。本文在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验。通过分析样本噪声的分布情况,对在各种样本噪声分布下的带噪观测模型进行性能评价,并与现有的主流基线方法进行比较。并以同样的参数条件对噪声鲁棒的远监督关系抽取模型进行了实验验证,分析比较了各个损失函数条件下远监督关系抽取模型的性能。结果显示本文提出的带噪观测模型相比最新基线提高了6%左右,噪声鲁棒的远监督关系抽取模型相比经典基线则提升了5%左右。
其他文献
伴随信息新技术的推陈出新,高科技给人们生活带来的便利之处随处可见。但随之而来的信息安全问题也得到了大家的广泛关注。传统的身份加密方式已经无法满足人们对高安全性的需求,所以社会迫切需要得到一种卓有成效的身份鉴别方法。根据人体本身独有的生物特征以及行为习惯来进行身份认证的新技术叫做生物特征识别,这种方式具有很高的安全特性。而与其他生物特征识别技术相比而言,虹膜识别以其独有的正确率高、容易采集和稳定性好
地理标志产品是基于独特的区位优势而形成的一种准公共产品,承载着长期历史积淀的品质声誉,对内具有有限的非排他性和非竞争性,对外具有极高的品牌价值和产业竞争力。地理标志品牌建设对解决我国三农问题具有重要的经济意义和社会意义。然而,随着我国地理标志品牌建设的不断深入,由其准公共产品属性引发的“搭便车”问题也日益凸显,市场主体机会主义行为倾向明显,地理标志品牌建设中私人供给严重不足,阻碍了地理标志产业的有
2009年以来,信托业在一片质疑声中经历了多年的飞速发展,并于2016年正式最终发展成为我国金融行业的第二大金融部门。但是,随着资管新规政策的出台,各类资产管理机构之间的竞争壁垒逐渐被拆除,资产管理行业面临新的竞争格局。同时,由于资源、环境、劳动力人口等生产要素的约束和限制,以及国内国际经济增长的客观趋势,中国经济呈现出了不同以往发展特点。习近平总书记针对这一局面,提出了中国经济发展进入了新常态的
在高中语文课堂教学中,阅读教学一直占据着十分重要的地位,新课程与新教材改革又给高中语文阅读教学带来了巨大的挑战。语文教师要胜任阅读教学课堂,就必须认识到学科教学知识对课堂教学的重要影响。因此,本研究将结合课堂实录、问卷与访谈,分析教师的学科教学知识对高中语文阅读课堂教学产生的相关影响,以提高阅读课堂教学质量,优化阅读教学效果。全文除绪论与结语外,共分为四个部分。第一部分:个案教师学科教学知识特征。
学位
病毒感染引起的疾病(如:乙型肝炎、丙型肝炎、艾滋病等)是全球性健康问题,目前临床上已有的药物仅能够抑制患者体内病毒复制,但是并不能够治愈相应的疾病;同时长期用药后,病
从社交网络到万维网,网络提供了一种直观、简洁的方式来组织、保存各种各样真实世界的信息。由于网络包含成千上万的节点和边,因此在整个网络上执行复杂的推理过程是很困难的。网络表示学习又称为网络嵌入、图嵌入,旨在学习网络中节点的低维稠密向量表示,将其用作各种任务的特征,如分类、聚类、链接预测和可视化。随着信息、科技的发展,信息社会中很多网络节点拥有丰富的标签、文本、视频音频等外部信息,构成复杂的信息网络。
我国由主板、中小板市场、创业板市场、新三板市场和区域性股权交易市场组成的多层次资本市场结构现已基本形成。然而,由于不同层次板块之间存在有机联系欠缺等问题,多层次资
草鱼呼肠孤病毒(Grass Carp Reovirus,GCRV)属于水生呼肠孤病毒属,是水生呼肠孤病毒属中危害最大的病原之一,也是中国分离的第一株水生动物病毒,可感染草鱼和青鱼,严重时造成80%-100%的死亡率。稀有鮈鲫(Gobiocypris rarus)是一种小型的实验鱼类,研究证明稀有鮈鲫对部分草鱼呼肠孤病毒株很敏感,感染GCRV后,鱼体会表现出明显的出血病症状,甚至死亡。草鱼出血病流行
近几年,农村信用合作社已逐步转变为农村商业银行,从而改进并完善了其内部控制,管理体系和员工构成。提升了运营能力并扩展了运营范围。然而,诸多旧的固有理论和工作方法仍需要改进和解决。其中,研发能力低,产品种类单一、服务态度不佳且竞争能力不高等问题也逐渐浮出水面。本文首先对定制化产品的营销现状及存在的营销问题进行了梳理,指出了定制化产品目前存在的主要问题是产品同质化现象严重、目标市场定位不明确、产品品牌
科学可视化近年来得到了长足的发展,而针对科学可视化的数据分析,体绘制是使用最为广泛的方法之一。体绘制能够将晦涩难懂的数据结构用直观的三维图像表示出来,并通过交互方式,对数据内部以及隐含的信息进行分析。但是,随着科学数据采集的精准度越来越高,以及科学数据采集的领域越来越广,所采集到的科学数据的体量也与日俱增,如此巨大的科学数据,无法在单一计算机上高效率地完成数据的预处理,体绘制以及实时交互。本文针对