面向开放领域文本的实体关系抽取

来源 :华中师范大学 | 被引量 : 39次 | 上传用户：rr_uu

【摘要】

：

随着大数据时代的来临,人们面临和需要处理的数据在规模上急剧膨胀,而大部分数据以自然语言描述的无结构文本格式存在,其内容所属领域的界限也日趋模糊,一些有重要意义和价值

【作者】

：

郭喜跃

【出处】

：

华中师范大学

【发表日期】

：

2016年01期

【关键词】

：

开放领域实体识别实体关系抽取知识图谱

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的来临,人们面临和需要处理的数据在规模上急剧膨胀,而大部分数据以自然语言描述的无结构文本格式存在,其内容所属领域的界限也日趋模糊,一些有重要意义和价值的知识信息显式或隐式地散落在这些海量的文字中间,从而影响了人们直观、高效地从中发现目标信息。作为信息抽取的一项重要任务,实体关系抽取研究的根本目标就是利用语言学、统计学、计算机科学、信息科学等多个领域的知识,从无结构或半结构的文本中发现实体之间存在的各类语义关系,并以结构化的方式呈现出来,以便于人们快速理解和掌握文本的意义。面向开放领域文本的关系抽取面临着诸多困难与挑战,而该项研究对于事件抽取、信息检索、机器翻译、自动问答等领域的研究具有较强的支撑作用,因而具有较强的研究价值与研究意义。针对开放领域文本的特点,在总结现有实体关系抽取研究的基础上,本文从实体关系特征选择和实体关系抽取方法两个角度进行了面向开放领域文本的实体关系抽取研究,并将这些研究成果应用于面向大学计算机基础课程的知识图谱的构建研究中。本文的主要研究内容包括以下四个方面：(1)基于句法语义特征的实体关系抽取。领域无关的新闻文本是一种较为常见的开放领域文本,现有的研究偏重于核函数及其组合的在关系抽取中的应用,而在关系特征方面的研究相对偏少,而且以往的研究大多是利用外部的语义知识库作为辅助来实现,较少从关系结构自身所处的句子中提取语义特征,也缺少从语言学的角度来挖掘关系特征。为此,本文提出一种基于句法语义特征的实体关系抽取方法,在特征选择方面,着重从语言学的角度出发,以词法分析、上下文环境等特征为基础,新添加了依存句法特征、语义角色标注特征以及核心谓词与实体的位置距离特征等,实现关系特征选择范围的扩展；在机器学习方法上,以SVM模型为基础,构建基于特征空间转换的训练模型,并采用成熟的算法对训练过程进行优化；最后使用《人民日报》部分语料进行了实验,实验结果证明了本文所述方法的有效性。(2)基于弱监督的实体关系抽取。百科类文本是另一种典型的开放领域文本,可根据其自有内容实现基于弱监督机器学习的关系抽取,从而减少人工干预、提高效率。以往针对中文百科文本的属性抽取研究较多,而实体关系抽取的研究相对较少,且在目标关系类型选择过程中存在缺陷。为此,本文提出一种基于弱监督的百科文本实体关系抽取方法,在监督知识库的构建环节,不再直接依赖基本信息框中的数据,而是从多个角度对基本信息框中的内容进行加工整合,得到质量更高的关系元组,用于对词条正文进行自动关系标注；在目标关系类型选择中,提出了一种基于频度差值密度的目标关系类型选择方法,使其够按照每种关系类型在语料中的分布密度随机从一定范围内选择目标关系类型,从而提高目标关系类型选择的覆盖面和科学性；本方法继承了上一研究内容中的关系特征选择、特征向量优化方法和关系分类训练模型,并使用百度百科部分词条作为语料进行了实验,得到了较好的实验效果。(3)基于字典构建与规则学习的实体关系抽取。该项研究主要实现从期刊文本中进行特定类型的术语之间的关系抽取。在基于规则的实体关系抽取研究中,利用关系字典能够明显地提升关系识别效果,而在以往研究中,关系规则与关系字典往往由人工构建,效率较低。本文提出一种基于弱监督的关系词字典自动构建方法,首先设计一种全新的关系词字典结构,在人工挑选部分典型关系词的基础上,通过基于CRF模型的弱监督机器学习得到关系词识别器,最终实现关系词字典的自动构建：在关系规则的自动生成方面,利用上述关系词字典,首先根据关系词与实体的相对位置关系设计关系模式,然后从大量的训练文本中抽取填充因子填充到关系模式中,从而自动得到关系规则；此外,本文还提出了无明显关系词的实体关系抽取方法以及规则修剪方法等。在实验中,将本方法应用于生物医学期刊文献中的蛋白质交互(PPI)关系抽取,取得了较好的效果。(4)面向大学计算机基础课程的知识图谱构建研究。面向大学计算机基础课程的知识图谱构建,可以为该课程的教学改革、学习方法的改进等提供丰富的知识保障,从而有助于提升教育信息化水平。本文以大学计算机基础课程的教材为知识语料来源,首先提出了一种跨语言的实体识别方法；整合并改造上述研究内容实现从教材文本中进行实体关系抽取；提出了知识图谱的模式设计,包括Schema设计、关系知识表示、知识更新方法和冲突处理等关键环节；最后开发了该知识图谱的可视化系统。

其他文献

浅谈我国白兰地现状及发展

<正> 白兰地是世界性的饮料酒,也是国际贸易金额较大的商品之一。随着国门的开放,国内的白兰地市场有了很大的发展,产量也提高的很快。已有多年生产经验的老企业,得到了大发

期刊

白兰地白玉霓原料生产现状及发展

昆明快速公交系统项目综合集成融资模式研究

首先分析昆明BRT系统项目建设的必要性和优势,通过分别总结BOT、TOT、BT单一融资模式在BRT系统项目应用中存在的弊端并结合昆明市的经济状况,提出昆明BRT系统项目融资可采用B

期刊

BRT系统BOT-TOT-BT综合集成融资模式

经前外侧距骨双螺纹加压钉行踝关节融合术

背景:当前在中国,踝关节融合术作为治疗终末期踝关节炎和病损给患者带来的长久功能和利益来讲,仍然是一个现实可行的手术方法或"金标准",但术式众多和融合率结果参差不齐,融

期刊

踝关节融合术外科技术双螺纹加压钉

有限责任公司股权转让法律制度研究——基于我国《公司法》第71条规范之解释

我国《公司法》第71条对有限责任公司股权转让的规则作了基本规定,其对公司章程以及默认条款对股权转让限定范围未作阐明,理论界与实务界的理解和适用存在分歧。有限责任公司

期刊

股权转让任意性规范优先购买权同意权形成权公司章程

建筑企业税务筹划研究

自2016年5月1日起,建筑企业一般纳税人由原来适用3%的营业税改为适用11%的增值税,其名义税率提高了八个百分点,企业成本陡然增加。为了消化吸收因政策法规改变而提高的税务成

学位

建筑企业营改增税务筹划风险防范

基于语料库的新闻英语主题词对比研究

本文基于两个小型自建语料库,分别研究分析了在以十八大为背景的中西方新闻媒体英语报道中主题词的异同和在特定的新闻体裁中,中国英语词汇使用的特征。研究结果发现:1)中西

期刊

语料库主题词十八大

建筑工程施工的新技术与新材料及其质量控制

建筑工程业随时代发展而呈现出不断进步的趋势,新材料、新技术的也随着工程开展逐渐推广。建筑施工人员等在使用新材料时缺乏系统的认知,可能会导致因为新技术和材料的应用出

期刊

建筑工程施工新技术与新材料质量控制

多元文化视角下的高校思想政治教育探究

文章首先阐述了多元文化的含义及特点,其次分析了多元文化对高校思想政治教育的影响,最后提出多元文化视角下高校思想政治教育的策略,即理性对待、用辩证唯物主义观念看待多

期刊

思想政治教育多元文化社会主义核心价值体系

高考新政实施中的悖论及其规避

以浙江、上海为试点,我国新高考改革试验正式开始。试点省市的高考新政在实施过程中出现了一些问题,集中体现为选择与诱导、减负与增负、公平与投机等三个悖论。要规避上述悖

期刊

高考新政悖论规避策略

王长垠教授治疗面瘫临床经验

中医药治疗面瘫得到了越来越多医生和患者的共识,王长垠教授有近40年中医药治疗面瘫的临床经验,疗效满意。他认为面瘫是正气不足,络脉空虚,外邪乘虚入中经络,气血痹阻,面部经

期刊

王长垠面瘫老中医经验

面向开放领域文本的实体关系抽取

其他学术论文