论文部分内容阅读
水环境是自然环境系统中最为复杂的一部分,包含了海量的数据和信息。为了能够保证用户可以轻松地访问、共享和重用水环境领域的数据和信息,需要选用恰当的技术手段,对其进行有效的组织和整合。本体作为能够清晰和规范地描述领域概念及其之间相互关系的知识库已得到高度关注和应用。所以,本文引入本体论的方法,希望对水环境领域的大量信息进行有效管理。但现阶段本体大多采用手工构建或者半自动构建的方法,其间涉及多名领域专家的参与,耗时耗力、质量无法保证,且所构建的本体尚不能应用在水环境领域,通用性较差。所以,如何快速、高效地从水环境领域提取概念及其概念间的关系,并将其作为本体来表达领域知识,已成为一个迫切的需求。为了能够自动构建一个水环境本体,首先收集了大量水环境领域的知识文本集作为非结构化数据源,并采用自然语言处理技术将文本集转换为词。然后基于统计学的方法得到“词-文本矩阵”,并运用奇异值分解的方法将“词-文本矩阵”投影到一个低维空间,消除了词和文本之间的语义模糊度,将概念信息凸显出来,完成了概念获取。最后采用层次聚合聚类的算法完成了概念间语义关系的提取,通过计算概念两两间的距离,将距离最小的两个概念合并,直至合并成为一个最大的上位概念。这样,便达到了从非结构化文本中构建水环境本体的目的。本文设计并实现的面向非结构化文本的水环境本体自动构建系统,缩短了本体构建周期、节省了开支成本、避免了领域专家之间认识不一致而造成的分歧,从而也在一定程度上提高了所构建本体的质量,为水环境领域本体的自动构建提供了一定的参考价值。