面向信息抽取的命名实体识别与模块获取技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:liuyw0825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要对信息抽取中的命名实体识别和模板自动获取两个技术进行了研究,并提出了一套有效的解决方案.在命名实体识别方面本文重点研究了中文人名的识别和机构名的识别.本文在对大规模语料统计的基础上,建立了一个人名识别的知识库,提出了一种统计和规则相结合的人名识别方法.该方法兼顾了准确率和召回率,获得了较好的识别效果.经测试,召回率达到了91.35%,准确率达到了92.23%.在机构名的识别中,本文采用了Co-Training的机器学习方法自动构造机构名用词、机构名前导词、机构名后导词、机构名后缀、机构名用词等造机构名识别知识库,并且充分运用了机构名的组成概率,机构名的用词的同现概率等统计信息,还有机构名的内部组成结构和机构名前导词后导词等信息,提出了一种统计和规则相结合的机构名识别算法.实验系统封闭测试准确率和召回率分别达到了90.2%和81.7%,开放测试准确率和召回率分别达到了88.5%和75.5%.本文另外一个主要的研究工作是面向信息抽取的模板自动获取技术的研究.本文创新性地提出了一种基于相似计算模板自动获取方法.本文还在中文信息抽取系统的设计上作了尝试.利用实验室现有的技术和本文研究的相关技术设计了一个中文信息自动抽取系统.
其他文献
随着互联网上数据的爆炸式增长,如何将互联网上内容丰富、形式多样的海量数据转化为知识并将其有效地组织和管理成为信息技术的新课题。本体作为其他应用学科发展的基础,它的相
本文主要研究了EAS/Jaguar技术以及基于它的多层分布式系统的基本实现方法,分析了与应用系统整体性能密切相关的连接缓存、数据更新、生存期和事务管理等诸多问题。接着还探讨
工业化的软件复用已经从通用类库进化到了面向领域的应用框架。框架的最大好处就是复用,它是面向对象系统获得的最大的复用方式。面向对象软件的生命周期常分为几个阶段。Brai
电子政务的长期建设目标是要建立一个能够覆盖各级政府部门、各类业务和应用,跨越各个层次,紧密结合、集约管理的开放式电子化服务环境。政府信息门户正是一个为整合内部资源
本文详细分析了喷墨绘图机中央控制器的工作原理以及组成结构,并在此基础上,提出和论述了喷墨绘图机中央控制器的硬件和软件设计方案及方案的可行性。该方案顺应当前嵌入式智能
交换式以太网的高通信速率与低成本使其在工业领域得到了快速的发展,已被广泛的应用于工业控制领域。针对以太网在工业领域中的可靠性和确定性等问题,论文通过对现有以太网冗余
近年来,随着Internet的飞速发展,越来越多的研究机构、团体以及个人开始注意到网络,并通过它来发布信息、查找信息。尽管Internet上有海量的信息,人们还是常常感到不能够找到
随着互联网在规模上的飞速扩展和在应用上的广泛普及,人们的工作和生活已经越来越离不开网络。特别是网络多媒体技术的出现,给人们的工作和生活都带来了许多方便,诸如视频会
随着移动通信与计算机技术的发展,移动智能设备被广泛应用在人们日常生活中,大量的信息被存储在这些设备上,同时由于经常性的交互,这些信息通常存在着多个副本。为了在人们之
虚拟企业是适应市场需求的有效组织模式,它融制造技术、现代信息技术和管理技术于一身,是未来企业合作的理想组织形式。起源于办公自动化领域的工作流技术可以对虚拟企业起到