论文部分内容阅读
随着大数据时代的来临,人们面临和需要处理的数据在规模上急剧膨胀,而大部分数据以自然语言描述的无结构文本格式存在,其内容所属领域的界限也日趋模糊,一些有重要意义和价值的知识信息显式或隐式地散落在这些海量的文字中间,从而影响了人们直观、高效地从中发现目标信息。作为信息抽取的一项重要任务,实体关系抽取研究的根本目标就是利用语言学、统计学、计算机科学、信息科学等多个领域的知识,从无结构或半结构的文本中发现实体之间存在的各类语义关系,并以结构化的方式呈现出来,以便于人们快速理解和掌握文本的意义。面向开放领域文本的关系抽取面临着诸多困难与挑战,而该项研究对于事件抽取、信息检索、机器翻译、自动问答等领域的研究具有较强的支撑作用,因而具有较强的研究价值与研究意义。针对开放领域文本的特点,在总结现有实体关系抽取研究的基础上,本文从实体关系特征选择和实体关系抽取方法两个角度进行了面向开放领域文本的实体关系抽取研究,并将这些研究成果应用于面向大学计算机基础课程的知识图谱的构建研究中。本文的主要研究内容包括以下四个方面:(1)基于句法语义特征的实体关系抽取。领域无关的新闻文本是一种较为常见的开放领域文本,现有的研究偏重于核函数及其组合的在关系抽取中的应用,而在关系特征方面的研究相对偏少,而且以往的研究大多是利用外部的语义知识库作为辅助来实现,较少从关系结构自身所处的句子中提取语义特征,也缺少从语言学的角度来挖掘关系特征。为此,本文提出一种基于句法语义特征的实体关系抽取方法,在特征选择方面,着重从语言学的角度出发,以词法分析、上下文环境等特征为基础,新添加了依存句法特征、语义角色标注特征以及核心谓词与实体的位置距离特征等,实现关系特征选择范围的扩展;在机器学习方法上,以SVM模型为基础,构建基于特征空间转换的训练模型,并采用成熟的算法对训练过程进行优化;最后使用《人民日报》部分语料进行了实验,实验结果证明了本文所述方法的有效性。(2)基于弱监督的实体关系抽取。百科类文本是另一种典型的开放领域文本,可根据其自有内容实现基于弱监督机器学习的关系抽取,从而减少人工干预、提高效率。以往针对中文百科文本的属性抽取研究较多,而实体关系抽取的研究相对较少,且在目标关系类型选择过程中存在缺陷。为此,本文提出一种基于弱监督的百科文本实体关系抽取方法,在监督知识库的构建环节,不再直接依赖基本信息框中的数据,而是从多个角度对基本信息框中的内容进行加工整合,得到质量更高的关系元组,用于对词条正文进行自动关系标注;在目标关系类型选择中,提出了一种基于频度差值密度的目标关系类型选择方法,使其够按照每种关系类型在语料中的分布密度随机从一定范围内选择目标关系类型,从而提高目标关系类型选择的覆盖面和科学性;本方法继承了上一研究内容中的关系特征选择、特征向量优化方法和关系分类训练模型,并使用百度百科部分词条作为语料进行了实验,得到了较好的实验效果。(3)基于字典构建与规则学习的实体关系抽取。该项研究主要实现从期刊文本中进行特定类型的术语之间的关系抽取。在基于规则的实体关系抽取研究中,利用关系字典能够明显地提升关系识别效果,而在以往研究中,关系规则与关系字典往往由人工构建,效率较低。本文提出一种基于弱监督的关系词字典自动构建方法,首先设计一种全新的关系词字典结构,在人工挑选部分典型关系词的基础上,通过基于CRF模型的弱监督机器学习得到关系词识别器,最终实现关系词字典的自动构建:在关系规则的自动生成方面,利用上述关系词字典,首先根据关系词与实体的相对位置关系设计关系模式,然后从大量的训练文本中抽取填充因子填充到关系模式中,从而自动得到关系规则;此外,本文还提出了无明显关系词的实体关系抽取方法以及规则修剪方法等。在实验中,将本方法应用于生物医学期刊文献中的蛋白质交互(PPI)关系抽取,取得了较好的效果。(4)面向大学计算机基础课程的知识图谱构建研究。面向大学计算机基础课程的知识图谱构建,可以为该课程的教学改革、学习方法的改进等提供丰富的知识保障,从而有助于提升教育信息化水平。本文以大学计算机基础课程的教材为知识语料来源,首先提出了一种跨语言的实体识别方法;整合并改造上述研究内容实现从教材文本中进行实体关系抽取;提出了知识图谱的模式设计,包括Schema设计、关系知识表示、知识更新方法和冲突处理等关键环节;最后开发了该知识图谱的可视化系统。