论文部分内容阅读
粗糙集理论是一种新型的处理含糊和不确定性知识的数学工具,它能够分析隐藏在数据中的事实而不需要关于数据的任何附加知识。该理论以其独特的优势正赢得越来越多的研究者的关注,并在各个领域获得了广泛的应用。本文介绍了粗糙集理论的基本概念和研究现状,给出了粗糙集的高效算法,并进一步研究了粗糙集理论在知识发现,特别是在聚类分析、文本分类、基于范例的推理等方面的应用。本文的研究工作主要包括如下几个方面:粗糙集的高效算法:现有粗糙集算法计算的低效性在一定程度上限制了粗糙集理论的广泛应用,因此寻求高效的粗糙集算法具有重要的意义。深入分析了算法低效性的根源,围绕不可区分关系和正区域两个核心概念,研究了不可区分关系的性质,给出并证明了正区域的一种等价计算方法,从而得出高效的粗糙集基本算法。随后,进一步分析了正区域的渐增式计算,并给出了一种完备的属性约简算法。理论分析和实验结果表明,这些算法在效率上较现有的算法有显著提高。基于粗糙集的聚类算法的研究:给出了局部不可区分关系、个体之间的局部不可区分度和总不可区分度、类之间的不可区分度、聚类结果的综合近似精度等定义,在此基础上提出了一种基于粗糙集的层次聚类算法RSHC,该算法能够自动调整参数,以寻求更优的聚类结果。实验结果验证了该算法的可行性,特别是在符号属性聚类方面有较好的聚类性能。基于粗糙集的文本分类的研究:从信息粒度的角度来分析文本分类,并将粗糙集理论应用于特征选取。进而对经典的词权重计算方法进行了改进,使之更加合理。在此基础上,本文给出了一种对应多重粒度级别的多层次文本分类方法:各文档类按照一定的层次关系组织成树状结构,在对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。实验和实际系统表明:该方法是行之有效的,具有较高的分类准确率与召回率。基于粗糙集的CBR的研究:基于范例的推理(CBR)是人工智能发展较为成熟的分支,而范例检索是确保CBR成功的重要环节。目前,最常用的检索算法是k-近邻法,但该方法对噪声和不相关特征较敏感,而且需要确定各特征的权值。粗糙集理论在处理不精确数据方面有其独特的优势,基于此,将粗糙集理论应用于CBR中的范例检索:首先用粗糙集方法对源范例库进行约简,减少计算范例相似性过程中所涉及的特征个数,以提高检索效率;然后在属性重要度的基础上给出了新的计算各特征权值的方法;进而给出了几种基于粗糙集的范例检索算法。实验结果验证了这些算法的可行性,特别是在处理离散的特征时有较好的性能。介绍了集成粗糙集高效约简算法和基于粗糙集的多层次文本分类方法的多策略知识发现平台MSMiner:首先介绍MSMiner的主要功能和体系结构,阐述了联机分析处