论文部分内容阅读
数据挖掘是解决数据丰富而知识匮乏的有效途径,其实质是从数据库或数据仓库中提取隐含的、未知的有用信息的过程。它被认为是数据库研究中应用前景极其广阔的一个领域。数据挖掘的目的是充分分析和理解数据,寻找数据内部隐藏的知识,并将知识以特定的模式表示出来。在数据挖掘技术的理论研究上,国内外已经取得了令人瞩目的成果;在应用的研究上,数据挖掘技术已经成功的应用到许多商业领域,并获得了良好的商业效益。随着网络技术的发展,企业业务也日益网络化、全球化。网络已经成为企业正常运营中必不可少的工具。因此,网络的性能越来越受到人们的关注。所以,挖掘分析网络报修数据,对于发现网络故障发生的根源、寻找排除故障的最佳途径具有重大意义。对网络服务提供商而言,挖掘分析报修数据,寻找导致故障的关键因素,及时排除导致故障的根源,有助于提高网络性能,树立良好的商业形象;对于网络用户而言,稳定、快速的高性能网络能提高企业的业务效率,增加经济效益。本文首先分析讨论了数据挖掘技术现状及发展趋势、数据挖掘系统的架构、数据挖掘的基本过程、数据挖掘的主要任务、数据挖掘的主要应用领域;然后介绍了决策树的基本概念,研究了决策树的常见算法及其最佳分裂属性选择方法和剪枝算法等。本文中使用的数据来源于上海某网通公司的客户服务部,以SQLServer 2005作为数据存储和管理平台,采用联机分析处理和数据挖掘作为数据分析的手段,运用商业智能平台进行应用程序的开发、展示挖掘结果,完成了基于决策树算法的网络故障报修数据的挖掘与分析。首先,根据业务需求和挖掘对象的特征确定挖掘任务;第二,对源数据进行汇总、清理、转换和消除噪声等数据预处理工作;最后,运用SQL Server 2005数据挖掘组件建立数据源连接、数据源视图,挖掘结构和构建决策树挖掘模型,进行数据挖掘。基于决策树算法的挖掘分析实现了对故障原因和故障类别的分类挖掘,取得了较好的分类效果,并结合网络实际的情况对挖掘结果进行了分析,给出网络维护的建议。