论文部分内容阅读
文本挖掘(Text Mining)也称作文本数据挖掘或从文本数据库中的知识发现,是指从非结构化文本信息中获取用户感兴趣或者有用的模式。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。面向语义关系发现的文本挖掘是目前的研究热点,其主要思想是通过对自然语言文本进行扫描和自动化处理,发现概念术语及概念术语间存在的语义关系。概念之间的各种语义关系是知识的重要表现形式,这些语义关系主要有上位关系/下位关系(hypernymy/hyponymy),部分整体关系(part-whole),因果关系(causality),同义关系(synonymy)、反义关系(antonymy)和推论关系(inference)等。从理论层面来看,面向语义关系发现的文本挖掘研究将使自然语言处理从词法分析、句法分析层面深入到语义分析层面;从应用层面来看,面向语义关系发现的文本挖掘研究可以为知识本体的自动或半自动构建提供理论和方法依据。本文以军用飞机领域的语料为基础,以军用飞机领域概念体系间语义关系发现为研究对象,运用文本挖掘的处理思想和基本流程,结合自然语言处理、信息抽取、本体自动构建相关研究的理论和方法,对基于文本挖掘的语义关系发现进行了研究和探索,并开展了实验研究。主要工作和研究内容包括以下四个方面:(1)面向语义关系发现的文本挖掘相关理论和研究综述。本文对国内外有关自然语言处理、文本挖掘、本体自动构建等方面的研究进展进行了介绍和综述,提出本文的研究方向和研究目标。在此基础上,对本文的研究内容和研究方法进行具体阐述。(2)军用飞机领域文本处理语料的建设。以维基百科和CNKI数据库中与军用飞机相关的文章,作为本语料库的文本语料。本军用飞机语料库包括1951个术语,304篇文章,在其中抽取出3324个短句。该语料库的建设为本研究的实验提供了基础,也为后续的本体自动构建或其他相关工作提供了素材和研究支持。(3)基于模板匹配的语义关系发现研究和实验。根据军用飞机领域的知识结构特点,提出军用飞机领域概念体系中包含的典型语义关系。为自动发现和识别这些语义关系,提出了结合编辑距离的模板匹配方法。该方法先在人工参与下训练一批语料,由此获得与语义关系类型相对应的关系模板。利用编辑距离对已获得的关系模板进行归纳匹配,再将其用于测试语料,以验证该方法的效果。(4)基于复杂网络的语义关系研究和实验。梳理复杂网络理论知识,利用自然语言所具有的网络特征,运用复杂网络发现其中的语义关系。提出一种运用复杂网络和相关分析工具来辅助发现领域概念术语及其语义关系的方法。将术语和与之相关联的词语作为网络的节点,构造复杂网络,由此形成的各个社区就代表一个关系。将术语作为节点,发现的关系作为边,构造军用飞机领域概念体系的复杂网络,并对其进行分析。