基于迭代方法的命名实体关系抽取技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:l7821744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,信息的数量与日俱增,人们需要从海量的信息中提取真正需要的信息,信息抽取的研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。 信息抽取的基本任务包括命名实体识别和实体关系抽取。其中命名实体识别是实体关系抽取的基础,实体关系抽取是事件发现和多种应用系统的基础。实体关系抽取的任务是寻找并判定实体对之间存在的特定关系。当前主要的抽取技术可分为基于知识库的抽取算法、基于特征向量的机器学习算法、基于核函数的机器学习算法、基于模式的Bootstrapping算法。 本文的工作在命名实体识别的基础上重点研究了实体关系抽取技术并实现了一个实验性的实体关系抽取系统。通过深入分析关系抽取技术的重点和难点以及现有技术的特点和不足,设计实现了特定关系抽取检索查询系统。本文的主要工作体现在以下几个方面: 1)命名实体识别算法:作为关系抽取的前续工作,命名实体识别是本文工作的一个重要组成部分。本文的命名实体识别算法重点针对机构实体的识别,采用字典结合规则的方式,其中利用互信息原理对机构名简称进行识别,具有很高的准确率。 2)特定关系抽取及三元命名实体扩展算法:根据规则提取了某类特定实体关系,并对提取到的实体采用规则加迭代方式进行了关系扩展,具有很好的效果。 3)命名实体特定关系检索查询系统实现:本文介绍的命名实体特定关系检索查询系统采用模块化设计,总共包括六个主要的功能模块。
其他文献
分布式约束优化是解决分布式推理任务的一个基本框架,是目前多Agent领域的研究热点。近几年来提出了许多优秀的分布式约束优化算法,这些算法大体上分为完备算法和非完备算法
随着数码设备的普及,互联网的兴起,每天将产生大量数字图像。为了有效的存储、管理图像数据库,需要对图像库进行索引,按特定的需求检索图像。怎么根据数字图像的视觉内容有效
随着信息技术与互联网技术的发展,大量的数据在各行各业中积累着,为了综合利用这些数据信息,达到充分的资源利用,需要针对现有的数据进行科学的研究和分析,进行大量的数据沉淀和数
学位
分类技术是数据挖掘领域一项重要的任务。如何根据训练集建立分类器,并使用该分类器准确预测待测试实例的类别是衡量分类器好坏的标准。单级分类器通常只对训练集学习一次,在
对等网络(P2P)是一种采用分布式体系结构的网络,也是当今一个迅速发展的研究领域。现有的P2P系统网络规模大、动态性高、异构性强,有效的搜索技术一直是P2P系统研究中的核心问题,
学位
有效的运动估计可以减少运动补偿残差帧中的能量,能够明显提高视频的压缩性能。本文系统分析了两种不同的运动估计方案:分级运动估计和变换域运动估计。运动补偿的嵌入式零块
Map Reduce作为一个并行处理的计算模型,因为其高容错性,高易用性,以及高扩展性在大规模分布式数据处理中得到广泛的应用。Map Reduce可以处理关系数据库中一些操作,像是选择
系统结构模型的构建是点对点技术的核心研究领域之一。全分布式结构化的系统把节点组织成一个具有良好的连接和路由规律的结构化拓扑来进行资源共享和查询。在结构化网络中,
随着计算机互联网的发展和广泛应用,网络安全问题变得越来越严重。因此,开展网络安全特别是入侵攻击与防范技术的研究,开发高效实用的入侵检测系统,对计算机网络的发展与应用
在图书馆流通中,每天都产生大量的数据,怎样合理地利用这些信息为图书馆管理服务,是我们迫切需要研究的课题。目前的图书馆管理系统无法发现这些数据中存在的关系和规则,无法