论文部分内容阅读
形式概念分析作为一种有效的数据分析工具,已经在许多领域得到了广泛的应用,如:机器学习、知识发现、信息检索、软件工程等等。概念格是形式概念分析理论中的核心数据结构,而对概念格的许多应用都要涉及到概念格的构造。概念格的完备性是它的主要优点之一,它使造格的最终的形式是唯一的和可重复的,因此概念格的构造不受数据或属性排列次序和构造方法的影响。但也因此导致概念格的结构庞大。在理论上的最坏的情况下,概念的节点个数会随着形式背景中对象个数和属性个数的增加以指数倍增长。构造概念格需要解决的一个重要问题就是:如何提高构造概念格的效率,降低时间复杂度。概念格的Chein构造算法是以分层的方式自下而上进行构造的,具有构造简单明了,易于生成Hasse图的特点。但是,Chein算法构造概念格的效率较差。Chein算法在生成下一层的过程中,对当前层的所有概念进行相交运算,不但耗费运算时间,而且会在下一层产生大量冗余节点,导致下一层要进行更多的相交运算。因此,使得Chein算法效率较低,而且需要占用大量的存储空间用来存放冗余节点。本文在对目前已有的各种概念格构造算法进行研究的基础上,对Chein算法进行了改进。通过分析概念格的Chein构造算法存在的问题,提出了信息反映度的概念,并以此解释了Chein算法在构造概念格时产生大量冗余节点却不能删除的原因,由此提出了对Chein算法的改进。改进算法的算法思想为:在产生下一层的概念节点之前,先对当前层概念组成进行分析,确定当前层是否存在冗余概念。如果有冗余概念,则将冗余概念根据属性集的蕴含关系,找到相应的非冗余概念划分为一组,在生成下一层概念节点时,只需要将同组的冗余概念和非冗余概念进行相交运算即可,不但减少了生成时间,而且有效避免了冗余节点在下一层的产生;如果当前层没有冗余节点,则对所有非冗余节点进行相交运算,相交次数仍然小于Chein算法。从而在提高概念格构造效率和降低造格时间复杂度的同时,保留了Chein算法结构清晰明了和易于生成Hasse图的优点。实验和算法分析表明,本文提出的模型和算法是有效的,随着形式背景规模的增大,相对于Chein算法的优势也会更加明显。因此,适用于对较大规模的形式背景进行批处理造格。本文的主要工作如下:(1)提出了对Chein算法的改进,用非冗余概念之间的相交运算以及非冗余概念与冗余概念进行相交运算两种方式,代替了Chein算法中对当前层所有概念两两进行相交运算的方式,来生成下一层的概念节点,从而提高了构造概念格的效率。(2)在研究Chein算法的过程中,提出了信息反映度的概念,证明了Chein算法构造概念格在概念信息反映不完全的情况下,不能直接删除冗余概念节点。只有当冗余节点包含的信息在概念格中得到完全反映之后,才能删除冗余概念节点。