论文部分内容阅读
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,己经被广泛应用于各种行业,如金融[1]、保险、政府、教育、运输以及国防等领域。[2]数据预处理是数据挖掘的前期准备工作。数据预处理技术可以改进数据的质量,有助于提高挖掘过程的精度和性能。数据分类和预测是两种数据分析形式,可以用于提取描述重要数据类或预测未来的数据趋势模型。数据分类的算法包括决策树、贝叶斯分类,基于规则的分类,支持向量机等。数据预测的算法包括:线性回归、非线性回归、以及其他基于回归的模型等等。数据分类和预测大量应用于欺诈检测、针对销售、性能预测、制造和医疗诊断等。本文阐述的物流平台是在使用数据分类和预测的基础上的,数据来源分别为各种异构的平台,如原有的物流平台和SAP系统。数据的提取通过预处理的方式进行,由于数据预处理是数据挖掘最为重要的步骤,数据预处理所花费的工作一般占数据挖掘过程的80%以上。本课题所进行的预处理工作是通过单独编写一个任务引擎来实现数据预处理过程。本课题的数据分类是为了方便数据进行比对,而预测是对未来的产品数量进行预测。本课题主要是基于J2EE的架构基础上开发的,大量采用了开源的框架。除此之外,还为系统开发了大量辅助工具。本文主要的研究工作如下:第一,阐述物流平台建立的意义,现代化企业急需建立物流信息平台。第二,详细介绍J2EE的平台以及J2EE相关的技术。并详细介绍了物流平台所使用的Webwork、Spring、Hibernate框架的原理和特性,以及物流平台中使用的设计模式。第三,数据挖掘总体的概述包括数据仓库、OLAP、数据挖掘技术,以及数据挖掘过程的相关的各种算法。第四,物流平台的各种功能的实现,从物流平台的基础框架到报表开发,再到各个模块的开发。详细介绍了物流平台的基础框架,因为它本身是一套成熟的、可复用的程序,可用于其余系统的搭建。第五,详细介绍了任务引擎的开发,因为它是整个物流平台的基础、数据来源。物流平台中所用到的数据挖掘的技术包括如何进行数据预处理,数据分类的算法,数据预测的算法。