基于条件随机域模型的文本信息提取

来源 :南京工业大学 | 被引量 : 0次 | 上传用户:jjuuhhuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是指从海量的文档集合中抽取需要信息的自然语言处理技术,是自然语言处理领域中非常重要的子领域,是近十几年发展起来的新领域。它的前身是文本理解,是一种浅层的文本理解技术。文本信息抽取主要研究命名实体识别、实体关系抽取、指代消解和事件探测四个方面。本文介绍了信息抽取技术的发展历史和研究现状,分析了几种常用的统计语言模型的优缺点,给出基于条件随机域CRFs模型以解决组块标注、命名实体识别和实体关系抽取的问题。   论文首先归纳了信息抽取中常用的四种统计语言模型,对这四种统计语言模型的数学原理进行了分析和阐述,比较了它们的拓扑结构图。在此基础上,给出基于条件随机域CRFs模型解决文本信息抽取问题的方案。条件随机域CRFs模型是一个无向图模型,该模型不需要马尔可夫假设即可求出整个标记序列出现的概率,能更好地拟合真实世界的数据,被广泛用于自然语言处理的研究领域。同时讨论了适合CRFs统计模型的参数估计L-BFGS算法和序列标注Viterbi算法。   其次论文根据该课题要求给出了组块分析和组块标注的概念,阐述了组块的定义分类以及组块标注问题的研究现状。在分析了五种组块标注方法后,决定采用IOB2形式标注实验语料中的组块,选用条件随机域CRFs模型解决组块标注问题。   论文的第三个方面聚焦于实体识别和实体关系抽取工作,主要关注中文实体关系抽取问题,同时把关系任务领域细化到某一种关系抽取,即ACE2006定义中的第一大类型Physical下的两种子类型关系的抽取。   基于以上相关的理论分析,本文设计和实现了三个实验,即基于CRFs统计模型的组块标注实验、实体信息抽取实验和实体关系抽取实验,三个实验的数据结果充分说明采用的CRFs模型较为适合解决文本信息抽取中的一些实际问题。   论文最后根据实验结果分析,实现了一个文本信息抽取的原型系统CTIEC,该原型系统包括文本预处理模块、命名实体识别模块、句法分析模块、组块标注模块和实体关系抽取模块。
其他文献
随着通信技术的迅猛发展,通信网络正向更加开放、更加灵活的下一代网络(NGN,Next Generation Network)演进。下一代网络是一种融合网络,正在向以软交换和IP技术为基础的全IP
合法侦听用于国家安全部门实时监控被控用户的通信活动,对数据的准确性、实时性要求很高。数据库性能好坏及数据的安全性将直接影响安全部门获取被控用户数据的准确性和实时性
最近几年,可变体的建模与模拟成为计算机图形界的新热点。从目前的研究现状来看,现有方法在检测的精度与检测的实时性上各有侧重。本课题来源于大连市公安局刑侦场景重建的项目
随着互联网技术的飞速发展,互联网成为了网民发表观点、表达思想的主要途径。信息在互联网上传播具有高速、广泛、隐蔽性等特点,导致大规模的网络舆情很容易形成。网络舆情指
随着网络规模的不断扩大,传统集中式入侵检测系统已经不能适应目前的网络环境,尤其是在大规模高速网络环境下,面对分布式协同攻击时,它已显得力不从心。因此分布式入侵检测系统作
用户授权认证访问已成为网络安全的主要因素之一,在该领域已有多种技术被提出以提高其安全性,JWS(JSON Web Signature)和JWT(JSON Web Token)就在其中。OpenID连接使得客户端能够使
近来业务流程管理(BusinessProcessManagement,BPM)技术日趋成熟,而面向服务的架构(Services-OrientedArchitecture,SOA)及Web服务等技术也迅速发展,并成为软件业的十大热点之一,
MicroRNA(miRNA)是一种长度约21-23个核苷酸大小的单链RNA小分子,是由具有发夹结构的更长的单链RNA前体(动物microRNA前体为60~80个核苷酸大小,植物microRNA前体的长度变化较大,
云计算的出现为许多IT传统产业开辟了新的领域,为许多较为成熟的IT传统技术指明了新的发展方向,特别是随着云计算技术的一步步成熟,它渐渐变成了一股强烈的浪潮冲击着传统产
IPv6正在全球受到越来越多的重视。IPv6协议的基本框架已经逐步成熟,在越来越广泛的范围内得到实践。分布式拒绝服务攻击(DDoS)是目前一种常见而有效的网络攻击手段。但拒绝