论文部分内容阅读
数据库规模的急剧增长要求数据挖掘能更有效地搜索与发现问题相关的数据,使发现的模式更有意义。现在的知识发现算法大多是“从零开始”的无需领域知识的独立发现,而在实际应用中,存储于用户大脑中或现有数据库中的领域知识在数据预处理、引导发现过程以提取更有意义的规则、解释发现结果等阶段都发挥着重要的作用。因此,在知识发现过程中融入领域知识已引起国内外学者的普遍关注,基于领域知识的知识发现已成为当前数据库中知识发现的一个重要的研究方向。 概念格是一种完备的知识表示模型,是数据分析和规则提取的有效工具。本文在对概念格及其扩展模型进行研究的基础上,提出基于概念格及其扩展模型表示领域知识,从多个概念层次上进行知识发现。本文的主要研究内容如下: 1.详细地讨论了领域知识的各种不同的知识表示模型,探讨了由不同知识表示模型表示的领域知识在知识发现过程各个阶段中的重要作用,展现了基于领域知识的知识发现的应用前景及所面临的挑战。 2.知识发现的实质是发现数据之间的潜在规律性,而这种潜在的规律往往是在不同的抽象层次上进行描述的,反映了不同粒度上的共性知识。然而,在知识发现中,数据库中存储的实际数据往往都只停留在某一粒度层次,有的数据所处的层次较低,难以从宏观的角度反映数据的规律;有的数据所处的层次较高,隐藏了一些细节上的共性知识。为此,本文提出对目标数据集引入多重关系领域知识,通过对细粒度信息进行泛化、对粗粒度信息进行展开发现数据之间紧凑的描述信息。 3.基于概念格这种完备的概念层次模型表示多重关系领域知识,将多重关系领域知识用于知识发现中分类问题的求解,设计了一种基于多重关系领域知识的分类算法CS_MRDK,通过实验验证了该算法能发现隐藏在数据内部的共性信息,有效地提高发现知识的质量。 4.在上述研究工作的基础上,实现了基于多重关系领域知识的分类知识发现原型系统。