数据挖掘和XML技术的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:JK0803_lijixiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化进程的加速和电子商务网站的风起云涌,数据膨胀而数据无用这个问题日益严重,怎样从现有的数据中提取对企业有用的信息,已经成为一个亟待解决的问题。数据挖掘就是解决此类问题而发展起来的新兴技术,它已经成为人工智能和数据库等领域的研究热点。本文对数据挖掘技术做了较全面的论述,对数据挖掘过程中数据集成所遇到的问题,提出了用XML技术解决的途径,并对数据挖掘的预测模型标记语言(PMML)进行了分析。 在数据挖掘前期,要进行数据仓库的建设,本文整体介绍了数据仓库建设的过程,对数据仓库关键技术粒度,元数据管理等作了专门探讨。本文重点研究数据挖掘技术,数据挖掘语言,并分析了原型系统中的数据挖掘的子系统,对其进行建立模型。 论文是以移动通信行业DSS系统为原型系统,结合数据仓库和数据挖掘技术,设计了这个原型系统的系统体系结构,并在此基础上实现了数据挖掘子系统,该系统采用B/S模式提供给用户灵活的交互查询分析方式。 本文采用的是关联规则的数据挖掘算法。在关联规则的研究中,采用经典的Apriori算法,文中对算法进行了详细剖析,提出了一系列的改进方法,并在此基础上设计了利用哈希技术,并用存储过程实现它的一种方法,这种方法能有效快捷安全地访问数据库。 异构数据库一直是数据集成过程中要解决的问题,论文中提出了将XML技术应用在数据挖掘中的观点正是为了解决数据集成这样的问题。在数据集成整合时,提出利用XML技术进行数据库之间的转换,这有效地解决了异构数据库数据整合的难题。 随着XML技术的成熟,出现数据挖掘预测模型标记语言PMML,它是对数据挖掘模型进行描述和定义的语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循,各系统之间可以共享模型,既可以解决目前各数据挖掘系统之间封闭性的问题,也可以在其它应用系统中间嵌入数据挖掘模型。论文的最后以关联分析为例,对PMML DTD2.0中的关联分析模块进行了解析。
其他文献
随着社交网络(包括评论,博客,论坛等等)的兴起,无论是个人还是团体都存在着利用这些信息来做决策的需求。但是,由于网络上的信息太多,人们的个人能力无法解决这项任务,自动化的情感挖
人脸识别是一个历史悠久的研究课题。随着机器学习,尤其是深度学习的发展,以及大数据的爆炸式增长,二维图像人脸识别技术近几年获得了长足的进步。然而,由于二维图像对姿态、光照
作为最主要的传输层协议之一,TCP为大部分的互联网应用提供了数据的可靠传输服务,因此TCP性能直接影响互联网业务的服务质量和公司营收。TCP的传输性能瓶颈分析一直以来都是网
随着计算机和互联网的飞速发展,统计机器学习在大数据时代的背景下面临更多的挑战。在很多场景下,统计机器学习问题呈现出特殊的共同规律,即数据以小组为最小单位。例如,在垃圾邮
在全球化的信息时代,重大决策很少也很难由个体来完成,80%的复杂问题需要群体来决策。本文首先介绍了国内外支持群体活动的工具,而后着重探讨了以综合集成方法为指导的“群研讨环
该文主要从教育的变革、e-Learning的发展、现状、面临的挑战和对策分析,引出开放教育体系的概念,通过研究多层体系架构、XML语言、网络服务、教育技术规范等技术,提出OES的
该文在深入研究了现有内容传输系统的优缺点的基础上,针对传统web缓存技术不能加速动态页面传输的局限性,提出一个新的动态页面缓存加速算法,实现对动态页面的网络传输加速功
借助统一业务资源管理系统,电信运营企业能够对企业内部的业务资源进行统一管理,实现业务资源的数据中心,促进企业的业务运营和开展,使企业的经营管理迈上新的台阶;将其他的
为了能从遗产系统中获取可复用的部分,并将其封装成为构件,用于新产品的开发,以降低开发成本,提高开发效率,该文中提出了一个基于Java的构件获取辅助工具,并给出了该工具的体
Cache验证算法的目的是验证cache中数据和服务器上的数据是否一致,它是移动计算系统充分利用cache技术优点的首要保证.有关移动环境中的高性能cache验证算法的研究一直是移动