论文部分内容阅读
随着企业信息化进程的加速和电子商务网站的风起云涌,数据膨胀而数据无用这个问题日益严重,怎样从现有的数据中提取对企业有用的信息,已经成为一个亟待解决的问题。数据挖掘就是解决此类问题而发展起来的新兴技术,它已经成为人工智能和数据库等领域的研究热点。本文对数据挖掘技术做了较全面的论述,对数据挖掘过程中数据集成所遇到的问题,提出了用XML技术解决的途径,并对数据挖掘的预测模型标记语言(PMML)进行了分析。 在数据挖掘前期,要进行数据仓库的建设,本文整体介绍了数据仓库建设的过程,对数据仓库关键技术粒度,元数据管理等作了专门探讨。本文重点研究数据挖掘技术,数据挖掘语言,并分析了原型系统中的数据挖掘的子系统,对其进行建立模型。 论文是以移动通信行业DSS系统为原型系统,结合数据仓库和数据挖掘技术,设计了这个原型系统的系统体系结构,并在此基础上实现了数据挖掘子系统,该系统采用B/S模式提供给用户灵活的交互查询分析方式。 本文采用的是关联规则的数据挖掘算法。在关联规则的研究中,采用经典的Apriori算法,文中对算法进行了详细剖析,提出了一系列的改进方法,并在此基础上设计了利用哈希技术,并用存储过程实现它的一种方法,这种方法能有效快捷安全地访问数据库。 异构数据库一直是数据集成过程中要解决的问题,论文中提出了将XML技术应用在数据挖掘中的观点正是为了解决数据集成这样的问题。在数据集成整合时,提出利用XML技术进行数据库之间的转换,这有效地解决了异构数据库数据整合的难题。 随着XML技术的成熟,出现数据挖掘预测模型标记语言PMML,它是对数据挖掘模型进行描述和定义的语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循,各系统之间可以共享模型,既可以解决目前各数据挖掘系统之间封闭性的问题,也可以在其它应用系统中间嵌入数据挖掘模型。论文的最后以关联分析为例,对PMML DTD2.0中的关联分析模块进行了解析。