基于粗糙集与云决策树的数据挖掘理论研究与应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lairr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术以及数据仓库技术的发展,在商业企业、科研机构以及政府部门出现了海量的、不同形式存储的数据,对数据挖掘方法在智能化和准确度方面提出了更高的要求。决策树方法因其具有可理解性高,计算量相对较小等特点而受到人们的欢迎。经过多年的发展,决策树方法经已经取得了很大进步,内容也得到了很大充实,但实际中的数据大多都具有随机性或不确定性,具有精确描述特征的决策树归纳学习已经不能适应一个系统中不精确知识自动获取的要求,而云模型方法在处理模糊性和不确定性的问题方面具有自己的独特性。云决策树的推理使得决策树这种优良方法可以应用于更多的数据分析中,发挥更大的作用。另外,决策树在处理冗余属性方面还存在许多问题,而粗糙集理论的属性约简是处理冗余属性很好的方法。对属性进行约简就是去除与决策属性不相关的条件属性,这样对于不同的数据集,尤其是大型数据集,可使决策树的规模明显减小,节点数量明显减少,从而使得决策树方法可理解性高、分类速度相对较快、计算复杂度相对较小以及分类准确率相对较高的特点得到充分体现。   粗糙集理论在处理不确定性问题或知识获取时,由于通过确定的数学公式描述直接对数据进行分析与处理,即不需要提供一个先验知识(如隶属函数),从而避免了主观性的影响,因此可作为其它理论如模糊集理论的一个有效补充,但粗糙集理论本身并不包含处理不确定性和不精确原始数据的机制。云决策树虽然包含处理不确定性和不精确原始数据的机制,但需要给出一个隶属度或隶属函数(先验知识),具有相当的主观性。因此,如果它们二者能够有机结合,对于组成的新系统,不仅符合人类认知的表达,而且具有客观性。   本文首先在粗糙集知识约简的基础上对云决策树进行了推理,说明该方法适用于不确定性数据的决策问题;然后,将粗糙集分类器与云决策树方法有机结合,组成了比单独的粗糙集分类器或决策树方法性能更好的系统,在仿真结果中取得了令人满意的效果;最后,将研究成果应用于基于J2EE平台的数据挖掘系统中。本文工作主要包含以下内容:   (1)主要研究粗糙集的扩展应用。为了对逻辑概念中的概率进行分析,引入流向网络的确定性流向分析代替概率的思想,并利用一个简单实例来阐明这个思想。由于实际中没有一种普遍的关于冲突情况的数学模型被大家认可,本文在另外一种基于粗糙集理论方法的基础上来进行分析,并利用一个冲突情况下投票分析的简单实例来阐明这种方法的有效性。从粗糙隶属函数定义出发研究粗糙整体部分关系逻辑,给出了粗糙整体部分关系逻辑的相关定义及性质,为整体部分关系逻辑关于复杂结构的推理提供了一种新的思路。   (2)主要研究能够得到最小约简的知识约简算法。为解决NP-hard问题,引入启发式搜索概念,并且指出启发式搜索可以使约简过程中的搜索空间大为减小。从信息论角度对决策系统中的属性重要度进行度量,提出了一种改进的知识约简启发式算法。在此算法中,以互信息作为启发式信息,来减小决策系统中知识约简过程的搜索空间,将取值较多的属性化为二值属性,克服了互信息中易倾向于值域中含有较多属性值的属性的缺点,并通过人们对汽车评价的实例对提出的算法进行了演示和比较分析,说明了其有效性和实用性。   (3)主要研究在粗糙集属性约简基础上对云决策树(CDT)的推理,提出了基于属性约简的云决策树方法。分析分类问题涉及的含糊性和不确定性,指出云模型语言值的软边界包容了人类思想和感觉的含糊性和模糊性,更符合人类的思维方式和主观感受,说明对于不确定性数据研究云决策树的必要性和必然性。在研究云模型有效结合随机性和模糊性机制的基础上,通过实例对云决策树的推理过程进行了演示,并在提取分类规则的基础上对数据集进行预测,验证了其有效性。   (4)研究通过不同分类方法有机结合开发更具优势的混合模型的问题,提出了粗糙集分类器与云决策树混合算法MCATree。首先,通过理论分析,得出粗糙集的数据分析方法优于贝叶斯定理,即不需要给出先验概率和后验概率,从理论上指出MCATree要优于NBTree。然后,对MCA(最大覆盖算法)与CDT的分类准确度进行了比较,说明两种方法对于不同数据集准确度的差异,对MCA与CDT有机结合的可能性进行了实际意义上的验证。在此基础上,提出了一种新的混合算法MCATree。并通过MCATree与CDT、MCA的仿真对比分析得出混合方法不仅擅长处理大规模数据集,而且相比粗糙集分类器与云决策树两种方法可有效提高分类的准确度,以及得到的规则更贴近人类的思维方式和实际需要。   (5)主要在MCATree算法研究的基础上,提出一个基于J2EE平台的数据挖掘系统应用模型,并对该数据挖掘系统进行了实现。提出了将系统置于B/S结构的方案,这样做的好处是方便资源的共享以及远程用户使用系统。然后设计了系统的组成模块,由控制、登陆和MCATree算法三个独立模块组成。根据EJB(Enterprise JavaBeans Technology)技术的特点,设计出每一个功能模块中具体包含的类、接口以及它们之间的通信机制,并验证了其有效性。
其他文献
肌电信号作为智能肌电假肢的主要控制源,研究肌电信号与人体动作间的联系对智能假肢的研究有着重要的意义。基于PC的虚拟仪器技术是一种新兴的构造仪器的技术,它利用计算机强大
高性能的交流调速系统都需要进行速度闭环控制,这就要求用速度传感器来测量转速,带来的问题是安装困难、成本提高,因此取消速度传感器利用已知信息估算转速便成为一个研究热点,在过去的20 多年里国内外许多学者致力于对无速度传感器控制系统的研究。本文基于感应电机稳态方程构造模型参考自适应观测器来估算转子速度,从而构成无速度传感器矢量控制系统进行了较为全面、深入的研究。首先对目前用于速度估算的几种方法进行了介
随着Internet的大规模发展和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘(Text Mining)作为数据挖掘的一个新主题而出现,引起了人
电动机在运行中经常会由于使用不当而引发各种故障,造成电动机损坏,影响经济生产。电动机智能保护装置能够根据负载电流判断线路中的各种故障并及时进行保护,最大限度地减少经济损失。本文深入分析了电动机在运行中可能出现的过载、断相、接地、堵转和短路等故障,提出了合理的电动机综合保护方案,设计了一种以DSP为核心,集过载、断相、接地、堵转和短路等故障保护于一体的电动机智能保护装置,弥补了传统保护器的许多缺陷。
电力系统是一个强非线性、多维、动态大系统。电力系统一旦失去稳定,其暂态过程极快,处理不当可能很快波及全系统,往往造成大范围、较长时间停电,给国民经济和人民生活造成巨大损