论文部分内容阅读
命名实体间语义关系抽取是信息抽取中的重要环节,也是自然语言处理领域的热点问题之一。随着Internet的快速发展和网上信息量的迅猛增长,从自由文本中抽取出有用的结构化信息具有极其重要的意义。同时,伴随着自然语言处理技术和机器学习技术的不断发展和成熟,从大量的自由文本中抽取出有用信息甚至知识也成为可能。近年来,虽然信息抽取研究已经取得了一定的进展,但是在语义关系抽取方面,其性能一直徘徊在70%左右,并且要求具备大规模的标注语料库,因而距离实用化还有一段距离。这是由于语义关系抽取任务本身比较复杂,且对文本的具体领域依赖性强。本文以减少语义关系抽取系统对大规模语料库的依赖性为研究主线,探索新的方法和策略,推进信息抽取的实用化进程。本文对语义关系抽取中的关键技术展开研究,研究内容主要包括:1.研究基于特征向量的语义关系抽取方法,重点探索了如何从自由文本及其语法结构中抽取出各种表面特征和结构化特征,并分析了这些不同的特征对语义关系抽取的贡献,从而为后续研究工作指明了正确的方向。2.研究基于树核函数的语义关系抽取方法,重点探索了关系实例的结构化信息的各种表达形式,提出了基于成分依存理论的动态关系树。根据依存规则从句法树中得到的动态关系树,既能涵盖关系实例的关键信息,又能删除不必要的噪音。实验表明,动态关系树能显著提高语义关系抽取的性能,尤其是召回率。3.研究实体语义信息在语义关系抽取中的作用,提出了实体语义信息的结构化表示方法——实体语义树,并将它和句法结构化信息——动态关系树有机结合起来,构成了合一句法和实体语义树。实验表明,合一句法和实体语义树能有效捕获关系实例的结构化信息和实体的语义信息,显著提高基于树核函数的关系抽取系统的性能。4.研究基于弱指导的语义关系抽取方法,将统计学中的分层抽样理论应用到弱指导学习中来,提出了基于分层抽样策略的初始种子集选取方法。由于采用分层策略选取出来的初始种子比随机选取的种子更具有代表性和典型性,因而它能取得更好的自举性能。同时,将分层抽样理论应用于自举学习的训练集扩展,也能在一定程度上提高了关系抽取的性能。5.研究基于标注传播算法的语义关系抽取方法,探索了采用自举加权支撑矢量的标注实例产生方法,以缓解标注传播算法所需要的计算资源问题。首先采用协同学习的方法通过SVM自举产生加权支撑矢量,这些关键实例能有效捕获语料库中已标注实例和未标注实例的自然簇结构,并作为源标记实例输入到标记传播算法中。实验结果表明,采用自举加权支撑矢量的标注传播算法其性能和效率都有明显的提高。本文的主要贡献在于对语义关系抽取中的关键技术进入了深入的研究和探索,并应用统计机器学习的方法解决关系抽取中的热点难题;提出了利用成分依存理论生成有效捕获结构化信息的动态关系树;研究了将实体语义树和动态关系树有机结合起来的方法;将统计学中的分层采样理论应用到弱指导关系抽取的初始种子集的方法研究;探索了基于自举加权支撑矢量的标注传播算法。这些方法的研究和所取得的成果有助于提高语义关系抽取的性能,减少对大规模语料库的依赖性,对今后信息抽取领域的研究具有重要的参考价值。