论文部分内容阅读
随着信息社会数据量的日益增加,人们迫切需要有效的数据挖掘来发现其中的知识。数据挖掘的好坏不仅决定于挖掘的算法有效性,更决定于待挖掘数据的质量。数据预处理可以为数据挖掘提供高质量输入数据,是能够挖掘出有用知识的前提。属性约简是目前数据预处理研究的热点之一。本文针对目前多数属性约简算法只适用于分类输出的局限性,采用启发式属性过滤和学习算法融合验证的打包思想,提出了一种基于双向距离关联法(BDDC)和径向基网络(RBNN)的属性约简算法。算法用本文提出的双向距离关联方法对属性进行重要性评价,根据重要性排序使用改进的加减结合策略进行属性子集选择;然后采用径向基神经网络对已选出的子集进行第二层监督验证。最后,本文采用采用中国城市竞争力数据库及城市气候库对算法的可行性和有效性进行了实验验证。相对于输入输出关联法,基于BDDC和RBNN的属性约简算法具有以下改进:算法提出的BDDC属性重要性度量方法综合考虑纵向和横向输入输出关联,分别针对分类和拟合数据设计了不同的度量函数,而且纵向关联综合考虑到纵向输入输出变化的大小及方向,横向关联计算了输入输出的直接横向因果联系,兼顾了属性的不平等性。算法采用局部逼近的径向基网络(RBNN)作为选择验证工具,并根据数据特点设计了不同的网络输出,网络的学习采用聚类、梯度法与正交最小二乘法三者的选择式混合学习算法。算法在BDDC重要性排序和网络性能函数的双重监督下,采用改进的加减结合策略(IASCS)选择属性子集,提高了效率。