论文部分内容阅读
智能信息处理是当前信息科学研究中的一个热点问题。随着信息时代的到来,信息量不断增长,信息模式越来越复杂,因此对信息分析工具的要求也越来越高。针对以上这些问题,波兰华沙理工大学的Pawlak教授在20世纪80年代提出了粗糙集(Rough set)理论,主要用来研究不完整、不确定知识和数据的表达、学习、归纳。目前该理论已得到了国际众多学者的重视。 本文着重对粗糙集的核心问题之一——决策表的约简进行了研究。决策表的约简包括决策表属性的约简和属性值的约简两部分。具体研究内容如下: 首先主要研究了属性约简中基于差别矩阵的约简算法和遗传算法,通过实例应用,对它们的性能进行了分析;另外研究了属性的值约简算法,并通过实例应用对以核值为基础的值约简算法和一种启发式值约简算法做了比较。 然后深入研究了四种属性约简的启发式算法,MIBARK算法,CEBARKCC算法,CEBARKNC算法和属性频度算法。通过实例应用,对三种基于信息量的MIBARK,CEBARKCC和CEBARKNC约简算法在算法的起点、终止条件、时间复杂度等几个不同的方面进行了分析;另外还对属性频度算法进行了改进,并通过实验证明,与原有算法相比改进算法能够得到决策表的较优约简。 最后主要研究了粗糙集理论在入侵检测中的应用,并运用kddcup离线数据做了实验仿真。