论文部分内容阅读
背景知识对于知识发现过程有着重大的影响.该文主要着眼于一类特殊的背景知识:数据对象间的关联限制,研究了其在聚类分析中的应用.分析了现有基于数据对象间关联限制的聚类分析方法的优点及不足,指出分隔的表示方法阻碍着现有基于两类关联限制的Kmeans类算法效果的进一步提高.基于数据对象间的关联限制,定义了数据对象与类间的关联以及类之间的关联,在此基础上提出了结合限制的分隔模型,通过类间的关联,众多分离的子类可以依据背景知识共同表示同一个类,从而可能更加灵活地结合用户倾向,对数据对象集进行分隔.结合此模型提出了结合子集的Kmeans算法CKS,实验证明它较CKM(COP-Kmeans)和CCL可以更好地利用关联限制.仔细分析了另一个有影响的限制聚类算法CCL,指出其在构造距离矩阵时忽视了负关联的作用,在其后的聚类分析时则完全忽略了所给限制,从而影响了准确率,在噪声较强时,算法可能不稳定.给出了混合限制complete-link算法HCCL,HCCL算法在前半段基于数据对象间的距离来指导聚类,在后半段基于类间的关联系数来指导聚类.HCCL在较好地利用了正关联的同时,还能较好地利用负关联,对于一些实际数据集的测试及分析结果显示此算法具有明显的优势.数据对象间关联限制的引入,使得一些原先收敛的算法不再收敛.详细研究了基于关联限制的Kmeans类算法的收敛问题,提出了CKM算法不收敛的第二种情况,通过反例,证明了现有的四个基于关联限制的Kmeans类算法均不收敛,同时还研究并给出了CKM和CKS算法收敛的一个条件.研究了关联限制的其他应用,可以应用来改造PAM算法,得到结合限制的PAM算法CPAM,基于结合限制的分隔模型,给出了结合子集的K中心点算法CKMDS,考察了关联限制在概念聚类中的应用,提出了将限制直接结合入分类效用计算的思想,并具体给出了一个结合方法.面向农业领域基于背景知识的知识发现,考虑了特殊的领域知识的应用.分析了生命周期知识在数据预处理过程中的应用,据此提出了基于时间窗口的数据预处理算法;基于土壤中养分的垂直分布知识,并结合土壤数据中常出现的一类错误模式,给出了一个基于分类的孤立点挖掘方法.