基于多特征增强的实体属性抽取研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:woainiyuying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性抽取旨在从非结构化文本中抽取与文本实体对应的属性和属性值,是知识图谱构建的一项重要子任务。目前,基于深度神经网络模型的属性抽取任务已取得长足进步。但是,属性抽取任务中依然存在较多亟待解决的问题,包括缺乏高质量标注数据、模型未能充分使用知识库中的知识、未登录词识别性能较低以及属性抽取模型对文本特征学习能力不足等。针对上述问题,本文的主要内容如下:(1)构建了基于远程监督的电商领域属性抽取数据集。本文基于电商文本和商品类目属性词典,通过远程监督的方式构建了一个包含类目标题数据和微博数据的电商属性抽取语料。针对远程监督标注存在大量漏标的问题,提出基于扩展三元组的远程监督标注方法,以较低的成本获取大量高质量的标注数据。为了充分展示数据特点,本文基于深度神经网络模型和多种预训练语言模型在该数据集上进行了一系列实验。实验结果表明,扩展三元组的远程监督标注方法有利于提高标注数据的质量,可有效缓解远程监督引入的漏标问题。(2)研究基于门控卷积方法的多特征增强属性抽取。随着知识图谱构建技术的日趋成熟,各领域的从业人员着手利用属性抽取技术丰富知识图谱实体节点的属性表达。然而现有的属性抽取模型难以有效抽取文本中的未登录词,且未能有效结合现有的领域知识库的知识。为解决未登录词难以识别的问题,本文将属性抽取任务转化为机器阅读理解任务,使用门控卷积操作提取文本中蕴含的片段特征,提高模型的属性抽取能力。此外,本文将知识图谱的三元组与文本包含的结构化片段相结合作为结构化信息,以提问的方式增强模型对属性类型的理解。实验结果表明,利用结构化信息与门控卷积方法可有效提高模型识别未登录词的能力。(3)研究基于多任务框架的多特征增强属性抽取。针对属性抽取任务中模型泛用性不足、未登录词的识别率低以及对属性类型学习不充分的问题。本文提出一种词边界特征增强方法,通过强化文本中各个词汇的边界特征,帮助模型准确定位属性值首尾位置,同时将分词特征融入文本编码,强化模型对文本词汇特征的学习。此外,本文结合多任务框架,将句子中是否存在待抽取属性作为辅助任务增强模型对属性类型的感知,并通过与结构化信息交互的方式进一步提高模型对属性类型特征的捕获。为证明所提出的模型具有良好的泛用性,本文在电商数据、影视数据和人物属性数据进行了充分实验。实验结果表明,本文提出的模型能有效识别未登录词且具备良好的泛用性。综上所述,本文分别从数据集构建、特征提取、多任务联合训练这三个角度出发,利用多种特征来改进属性抽取系统的性能,一定程度上解决了属性抽取任务现有的难点,并结合大量实验证明所提方法的有效性。
其他文献
监察体制的改革引领了打击贪污腐败的新纪元,创建了权力集中的专门的国家监察机关,集中统一领导监察工作,以高效反腐为目标,提高打击腐败的力度,建设清正廉明的法治环境。《监察法》的制定为监察机关提供了直接的行为规范,在职务犯罪案件调查特殊性的影响下,立法层面上为方便监察调查活动的顺利开展更侧重于公权力的赋予,由此造成了高效反腐和权利保障之间的价值冲突。留置措施是监察调查中的一项重要措施,是监察调查措施中
学位
随着信息技术的发展,互联网产生的信息量日益增长,带来了信息过载的问题。由此产生的推荐系统成为互联网平台研究的一个热门问题。推荐系统通过研究用户历史行为,判断用户兴趣与偏好,进行信息过滤与内容推荐。用户在互联网上的喜好与行为意图是由多种因素构成的,这些因素通常是耦合的,难以区分。利用解耦表示学习方法帮助推荐系统识别与区分这些耦合因素,可以挖掘隐藏在用户行为背后的偏好与意图,提升推荐的个性化效果。本文
学位
随着人口的迅速增长和工业发展进程的加速,用水量和排水量也在迅速增长,资源不足造成的天然水资源缺乏和环境污染使得水体环境污染和水生态环境污染问题日益加剧。运用生态修复的手法,对云南青海湖湿地公园景观设计进行了研究,根据现状条件将青海湖湿地公园总体结构为:“一湖、两廊、七区、十二景”,分为湿地科普区、水田展示区、水上森林区、湿地洲渚区、康体休闲区、水岸风情区、云岛景观区等功能区,并就相关问题提出湖泊淤
期刊
细胞膜是细胞内外环境的分界,参与多种基本生理反应过程。物质与细胞膜的相互作用是其进入细胞发挥功能或造成细胞毒性的第一步。一些具有生物活性的聚合物和多肽分子具有良好的生物适应性、靶向选择性、膜结合亲和力和细胞内化能力,在抗菌、药物和基因递送、生物检测等方面具有应用潜力。然而由于细胞环境的复杂性和研究手段的局限性等因素,这些活性分子与细胞膜发生界面相互作用的过程和机制尚不明确。传统的细胞膜界面研究的实
学位
学习索引是最新提出的一种索引范式,旨在利用机器学习模型学习存储介质上数据的分布,从而达到降低空间成本并提高检索效率的目的。目前的学习索引工作部分或完全遵循“数据是一维、静态的,且有序地存储在内存数组中”的强假设。然而在大数据时代,尤其以流数据为代表的应用场景中,上述的学习索引工作很难发挥实际的作用。终其原因,流数据具有的多维性和动态性与已有工作存在的强假设是相悖的。本文首次将学习索引的应用范围拓展
学位
以“清、雅、淡、美”为风格特色的当代作家汪曾祺,一生留下了无数富含“中国味儿”的文章。为感怀汪老而建的汪曾祺纪念馆肩负文物保护和社会公共教育的责任免费开放,导致经营成本直线上升,运营问题日益严重。如何更好地发挥纪念馆社会功能,并确保在经济发展的洪流中可持续发展,是当下汪曾祺纪念馆发展面临的首要问题。近年来,文化创意产品开启了新一轮的消费浪潮,不仅满足了当下消费者精神文化需求,更为汪曾祺纪念馆的持续
学位
近年来,网络安全问题日益受到关注,身份认证作为一个系统或者应用的入口,其对整个系统的安全性起到了至关重要的作用。目前主流的身份认证方案仍然采用的中心化的方式,较为常见的有“账号+密码”的形式、PKI(公钥基础设施)技术、人脸识别技术。尽管目前这些技术比较成熟了,但依旧会暴露出许多网络安全方面的隐患,比如单点故障、易受攻击、隐私泄露、数据篡改、管理困难。如今区块链技术非常火热,由于其本身具有去中心化
学位
目的 探讨早期颅骨修补手术治疗脑外伤的临床价值,为脑外伤患者探寻更好的治疗方案。方法 选取 2021 年 5月—2022 年 7 月滕州市中心人民医院收治的脑外伤患者 66 例纳入研究,随机分为对照组和观察组各 33 例。对照组先给予脑室-腹腔分流术,3 个月后给予颅骨修补术,观察组给予早期颅骨修补术与脑室-腹腔分流术联合治疗。比较两组治疗效果、术后恢复情况及并发症发生率。结果 观察组的优良率为
期刊
生态修复理念的应用能够很好地解决环境保护与开发平衡问题。在湿地公园设计与建设中融入生态修复理念,能够在帮助改善当地人居环境的同时发挥出良好的生态效益和经济效益。解析湿地公园及生态修复的概念,提出了生态修复理念下湿地公园设计原则(因地制宜原则、生态设计原则、协调发展原则、美学原则),分析总结了国内外生态修复理念下湿地公园的典型设计案例(伦敦湿地公园、杭州西溪湿地公园、六盘水明湖湿地公园),为利用生态
期刊
近年来,随着生物医学文献数量的飞速增长,如何从这样庞大的生物医学文献资料中快速高效地抽取出有价值的信息是当前急切需要解决的问题。生物医学领域中的命名实体识别(如疾病、化学物、基因/蛋白质等)和关系抽取,对生物医学知识图谱的构建、精准医学和新药研发等工作具有非常重要的意义。本文在生物医学领域的文本挖掘领域进行了以下三个方面的研究工作:(1)基于机器阅读理解(Machine Reading Compr
学位