面向自由文本的资源实体与关系抽取

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:ernest5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
资源库是计算机辅助创新系统中的一个重要库,多年来一直通过人工抽取资源进行填充。资源库的数据量对辅助创新具有重大价值和意义,所以如何从海量文本中自动高效地抽取资源受到关注和研究。以往对资源的抽取往往采用机器学习的方法,这类机器学习模型往往为浅层模型,特征的制定均围绕两个实体展开并且停留在词汇表层。然而对于资源抽取,需要以整个句子的语义信息为基础,所以获取整个句子和其上下文之间的深层语义特征十分关键。因此,本文提出利用深度学习模型中的双向长短时记忆网络(Bidirectional Long Short Term Memory,BLSTM)对资源进行抽取,该模型具有挖掘文本深层语义信息和利用句子上下文信息等特点,能够取得更好的实验结果。所以,本文利用BLSTM提出了一种资源实体与关系抽取算法,目的是抽取自由文本中的资源所包括的物质、属性、参数、量值四种实体以及四者之间的关系。该算法包括资源实体识别和资源关系抽取两项子任务。在资源实体识别中,由于属性和参数在句中语法位置相同,造成区分困难,所以先把属性实体和参数实体看成一个实体,称为属-参实体,利用BLSTM构建实体识别模型,并在模型中引入维特比算法完成对物质实体、属-参实体和量值实体的初步实体识别,再利用词典与规则相结合的方法对初步的识别结果进行校正。资源关系抽取首先通过BLSTM构建属-参实体和量值实体的关系分类模型来判断属-参实体和量值实体是否存在关系,接着利用词典与规则相结合的方法区分属性实体和参数实体,以及处理没有和属-参实体匹配的量值实体的问题。通过该算法最终形成<物质、属性、参数、量值>四元组,为填库奠定数据基础。最后,本文制定语料标注规范对收集的语料进行标注,形成资源语料库进行资源实体识别和资源关系抽取的实验,均取得了比较理想的水平。通过对比实验,也同样证明了BLSTM在实体识别和关系抽取任务上的优秀能力。
其他文献
天然裂缝是油气的重要渗流通道,对裂缝性油气藏的高效开发具有重要的意义。天然裂缝的存在还会引发工作液漏失,进而诱发严重储层损害。利用固相材料对裂缝漏失通道进行封堵,
传统的图书馆对图书的存取依靠手工对图书进行分拣,效率低下,运营成本高,对读者来说额外增加了等待时间,为了解决图书馆对图书存取的这些问题,需要设计一套行之有效的图书馆自动借还书系统,来代替人工对图书进行分拣识别以及自动存取的工作。本文分析了当今我国图书馆现状,为提高图书馆借还书工作效率,对图书馆自动借还书系统进行了设计。整个图书借还书系统可拆分成四部分,分别是书架、自动借还书机器人、借还书运动路线以
在我国现行法律制度中,根据专利许可合同授权范围和程度的不同来划分,专利被许可人分为独占、排他和普通被许可人三种。当前我国法律及相关司法解释对于三种不同类型的被许可人赋予了不同的诉权,但由于专利被许可使用权的性质不明确,学界对于专利被许可人诉权的正当性依据存在着争议,这直接导致了我国法律中被许可人诉权相关规定的不足,也使得专利被许可人的诉权在实践行使中存在很多难题。本文通过专利被许可人诉权有关的基本
近年来,随着指纹识别、人脸识别等技术的飞速发展,人们与计算机之间的交流越来越频繁。在这一过程中,人们对计算机理解人类的情感状态,识别面部表情提出了要求。人脸表情识别技术已成为目前的研究热点之一,在远程教育、游戏娱乐、医疗护理、疲劳驾驶等方面具有广阔的应用前景和重要的研究价值。目前为止,人脸表情识别的研究对象主要是静态图像与视频序列。由于表情自身是一个变化的过程,静态图像难以反映表情的动态特征,导致
吲哚美辛(Indomethacin,INM)是非甾体类抗炎药,具有解热镇痛作用,但是因为它的水难溶性,导致其生物利用度极低,无法很好地在临床上运用。应用固体分散技术,将此类药物与水溶
碳纤维复合材料具有质量轻、比强度和比刚度高、耐磨性好等特性,已广泛应用于航空航天等领域。随着复合材料使用量的增多,材料结构会出现多种形式的损伤。为了避免经济损失及
随着单模-多模-单模(SMS)全光纤结构的传感器在光纤传感领域的不断发展,SMS结构由于其结构简单、制作方便、灵敏度高等优点受到广泛关注。但是全光纤结构的传感器存在光谱易受干扰,峰值波动较大等问题。针对这一问题,本文提出一种SMS与布拉格光纤光栅(FBG)结合的高应变灵敏度传感器。利用SMS结构中多模光纤纤芯粗、易耦合的特点,将多模光纤进行熔融拉锥处理以提高传感器灵敏度,在多模光纤的锥区一侧刻写F
随着互联网的不断崛起,网络信息资源迅速膨胀,出现了严重的信息过载现象,导致人们很难找到自己想要的信息,于是推荐系统应运而生,能够帮助用户更快更准确地从杂乱无章的信息
量子叠加是量子理论的核心,被认为是区别量子与经典世界的标志。随着科学技术的深入研究和不断进步,量子物理学的面纱被逐层揭开。迄今为止,经科学家们的不断努力和探索,已经
十字军东征是在中世纪发生的最具有影响力的事件,1095年11月,教皇乌尔班在克勒芒会议上发起了以收复圣地耶路撒冷为目的的圣战。第一次十字军东征战胜了穆斯林,收复了圣地,并