论文部分内容阅读
数据挖掘在科研和商业应用中正发挥着越来越重要的作用。随着数据量的增加,数据挖掘工具处理海量数据的能力问题显得日益突出。数据挖掘通常又称数据库知识发现。为了系统的将数据挖掘技术应用与企业的决策,将企业的数据资源转换为企业的核心竞争力,一个有效的方法就是将数据挖掘技术与企业知识库技术有机地结合起来,形成分析研究和应用需求相互促进、知识与规则提取方法的专业化的应用体系。数据挖掘的基本任务是从海量数据中获取隐含在数据背后的有用的知识。数据挖掘应用基本过程是集成历史数据,在此基础上建立挖掘模型,挖掘出有价值的商业运作规律和模式,再将这些挖掘模型、规律和模式表示成易理解的规则集成到企业知识库中,最后是将知识库知识应用于企业的商业活动。不同的数据挖掘任务会产生出不同类型的知识。通过对这些知识类型结构和性质的研究,可以得到相应的数据挖掘过程需要完成的任务集合,从而定义出规范的、完整的数据挖掘算法流程。决策树学习有很多算法,本文着重研究了对引入用户兴趣度参数的ID3算法在面对多值属性时的快速分类的优化,在避免了多值弱相关属性覆盖少值强相关属性的基础上,通过数学工具简化原算法的复杂度和编码代价,从而提高使用该算法时的运算速度,尽量多的节约计算时间,从而达到降低成本的,提高效率的目的。