基于网络抱团发现的命名实体关系抽取

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:xsl_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是是信息抽取研究领域的一个重要课题。关系抽取的目的是从文本中发现两命名实体间的关系。近年来,该技术得到越来越多的关注,被运用到各个领域中,如:信息抽取,本体构造,问答系统,生物技术等。 自从1995年,第六届信息理解会议(the Sixth Message Understanding Conference MUC-6)提出关系抽取这个概念以来,在命名实体关系抽取方面已经开展了大量的研究工作,但绝大部分研究都是基于有导学习的。有导学习方法最大的问题在于需要花大量的时间去标注足够数量的训练语料,此外系统很难从一个领域移植到另外一个领域中。为了突破有导学习方法中的限制,无导方法被提出来。但是,目前无导方法仍然存在一些问题:(1)命名实体对一般是通过一定范围内的上下文来进行描述地,但是如何设置上下文窗口大小,一直以来都没有一个客观的标准;(2)在命名实体对的聚类过程中,往往存在着很大的噪音,如何能在噪音存在的情况下保证较好的聚类效果:(3)命名实体对之间的语义关系是具有层次结构的,如何描述这种层次结构的关系。 针对以上问题,本文尝试性地提出了一种基于网络化数据挖掘的命名实体对关系抽取的方法。在该方法中,我们采用了如下三种关键技术:1、利用网络化结构来表示命名实体对;2、基于抱团现象的命名实体对聚类;3、基于语义层次的命名实体关系描述。特别值得一提的是在关键技术1中我们着重解决了实体对上下文窗口大小的设置的问题,在关键技术2中我们创新性的提出了一个如何在带权网络中发现抱团现象的方案。 为了验证提出的命名实体对关系抽取方法的可行性和有效性,我们以半年人民日报为语料进行实验。结果表明,本文提供的方法不但可以以较高的准确率发现命名实体间的语义关系,而且能够恰当地标注命名实体间的语义关系。
其他文献
我们生活在一个多姿多彩的世界里,这里有白白的云、淅沥的雨、缤纷的烟火、熊熊的火焰……,而这一切如何在计算机的虚拟世界中来实现呢?不用担心,用粒子系统可以实现它们。而
海洋渔业资源作为可再生的生物资源是海洋资源中十分重要的组成部分,对人类社会的生存发展有着重要意义。我国作为世界第一的渔业大国,连续多年是水产品输出量最大的国家,但是依
工作流模式广泛应用于现代社会的办公、生产和制造等领域,发挥着重要的作用。工作流技术是实现企业业务过程建模、仿真优化分析、过程管理与集成,最终实现业务过程自动化的核
随着我国经济的快速发展,城镇建设和工业生产不断扩大,许多水体遭到工业污水、生活污水的污染,水污染成为我国最严重的环境问题之一。水质监测与评价作为水资源管理和污染控
群组动画是计算机动画领域一个新兴方向,主要研究由大量个体组成的群和组的动画生成。群组动画技术可以用于建筑物疏散口设计,影视特效等诸多领域。特别是在影视特效制作方面
因特网的爆炸式成长和电子商务的出现导致了推荐系统的发展。推荐系统是一种个性化信息过滤技术,它被用来预测某个用户是否喜欢某个项目(预测问题),或被用来确定某个用户最感兴
近年来,随着互联网的高速发展,搜索引擎系统得到了广泛的研究与应用。目前主流的搜索引擎系统均采用倒排索引结构来组织索引,该结构中每一个词项对应一条倒排索引,它将含有该词项
VoIP是指在IP数据网络上提供通话服务,由于VoIP承载于分组交换网络,其信令协议和实时数据在Internet上传播,它继承了网络易受攻击的缺点。而随着VoIP应用的普及,安全性问题成
负载平衡是影响分布式系统性能的一个关键因素。在P2P网络中,由于用户对资源需求的不均衡性以及网络中计算机计算能力的异构性,使得负载不平衡现象尤为明显,进而引起请求延时、
当前移动互联网和物联网迅速发展并逐步成为下一代互联网的主要模式,我们需要将各种无线通信技术融合起来提供普适计算,满足用户随时随地获取服务的需求。在众多无线技术中,