论文部分内容阅读
数据采掘是统计学、计算机科学、模式识别、人工智能、机器学习及其它学科相结合的产物。在当今数字化社会中,各种商业、政府、科学数据库和数据量的急剧增长,远远超过了人类目前已有的分析和理解能力,因此从大量的数据中智能地、自动地提取出有价值的知识和信息的研究,即数据库知识发现,具有十分重要的现实意义。 本文主要研究了数据采掘中的如下几个问题:基于偏置变换的决策树学习算法;决策树算法属性选择标准;粗糙集理论及应用;基于主体的分布数据采掘系统以及面向多任务的通用数据采掘系统及其系统集成。 本文的研究成果主要为: 1.为解决现存决策树学习算法在属性选择、数据噪声、数据递增及领域限制等问题,实现了一个基于偏置变换的决策树学习算法BSDT。BSDT采用了一种基于CBR的两级式学习策略来完成过程偏置变换。其中,第一级用于选取最优决策树学习算法。它利用经典范例库及现存算法的特性构造出CBR所需的范例库,再采用CBR方法选取面向目标任务的最优算法;第二级用于对目标任务的学习。将上一级选出的最优算法作为第二级学习算法进行目标分类规则的学习。同时,还为增加新算法与经典例子集提供了机制。 2.为解决决策树学习算法在处理偏好、代价及概念层次等问题上存在的缺陷,实现了泛化算法以及特化算法对原始训练集进行概念层次的提升及下沉操作,使原始训练集达到某种要求的概念层次来完成对概念层次的柔性指定。结合偏好系数、代价系数构造了属性选择函数ASF。 3.对粗糙集中的一种重要表示方法一差别矩阵进行了拓广,提出了相似矩阵及关联矩阵的表示。基于关联矩阵,提出了关联属性度量的概念;基于相似矩阵,提出了必然规则和似然规则的概念。同时实现了基于关联属性的Top-down的知识约简算法URD以及基于粗糙集的决策树学习算法RSDT。RSDT算法解决了不确定知识的处理和表示问题。