论文部分内容阅读
关系抽取是是信息抽取研究领域的一个重要课题。关系抽取的目的是从文本中发现两命名实体间的关系。近年来,该技术得到越来越多的关注,被运用到各个领域中,如:信息抽取,本体构造,问答系统,生物技术等。 自从1995年,第六届信息理解会议(the Sixth Message Understanding Conference MUC-6)提出关系抽取这个概念以来,在命名实体关系抽取方面已经开展了大量的研究工作,但绝大部分研究都是基于有导学习的。有导学习方法最大的问题在于需要花大量的时间去标注足够数量的训练语料,此外系统很难从一个领域移植到另外一个领域中。为了突破有导学习方法中的限制,无导方法被提出来。但是,目前无导方法仍然存在一些问题:(1)命名实体对一般是通过一定范围内的上下文来进行描述地,但是如何设置上下文窗口大小,一直以来都没有一个客观的标准;(2)在命名实体对的聚类过程中,往往存在着很大的噪音,如何能在噪音存在的情况下保证较好的聚类效果:(3)命名实体对之间的语义关系是具有层次结构的,如何描述这种层次结构的关系。 针对以上问题,本文尝试性地提出了一种基于网络化数据挖掘的命名实体对关系抽取的方法。在该方法中,我们采用了如下三种关键技术:1、利用网络化结构来表示命名实体对;2、基于抱团现象的命名实体对聚类;3、基于语义层次的命名实体关系描述。特别值得一提的是在关键技术1中我们着重解决了实体对上下文窗口大小的设置的问题,在关键技术2中我们创新性的提出了一个如何在带权网络中发现抱团现象的方案。 为了验证提出的命名实体对关系抽取方法的可行性和有效性,我们以半年人民日报为语料进行实验。结果表明,本文提供的方法不但可以以较高的准确率发现命名实体间的语义关系,而且能够恰当地标注命名实体间的语义关系。