论文部分内容阅读
数据挖掘是一种处理庞大数据库的新技术,它能对数据内部隐含的知识进行分析和探索。粗糙集在这种新技术中扮演着特别活跃的角色,近年来,粗糙集的经典理论被广泛的应用到信息处理的各种领域当中,由于不需要借助任何先验知识,就能处理分析不完整、不精确的信息,在此过程中发现隐含的知识,导出潜在的规则,因此,基于粗糙集的数据挖掘得到了越来越多的研究者的兴趣。本文主要对属性约简相关问题开展研究工作,从信息论的角度出发,并将其应用到分析学生综合成绩的影响因素当中。1、首先对近些年来基于粗糙集的经典理论研究背景及意义、过程、现状和发展趋势进行了综述,对学生成绩的研究现状和常见研究方法进行了说明。从信息论的角度对知识约简进行研究,代替了以往的代数论角度,这样会更加有利于处理各种不确定性问题。2、在常见的数据预处理---离散数据方法中,比较分析几种典型离散方法各自的优缺点,找出适合本文的有效离散方法,这样可以更加切合学生实际情况,提高结果有效性。3、对基于属性重要度的属性约简算法进行改进,将改进后的算法应用到学生综合成绩影响因素的分析中去。在决策表系统中对属性重要度的构造思想和具体步骤以及约简算法进行描述,结合实际数据,进行属性约简和影响因素的重要度分析,最终得到一个约简结果,并应用粗糙集软件对约简结果进行验证和说明。最后生成规则集,为学校的教育教学过程能提高学生的综合能力和分数提供了有利参考价值。本文的最终研究成果是设计一个基于属性重要度的属性约简改进算法,可以降低原算法的复杂程度,最终从决策系统中获取最佳决策规则。