基于XML的数据挖掘研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ysabby2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络和信息技术发展的同时,知识发现和信息交流的问题成为当前网络与数据库等领域的研究热点,数据挖掘和XML就是为解决这两个问题而发展起来的新兴技术,如果将二者结合起来研究,就同时解决了知识的发现、表示和传播等问题.该文对XML和数据挖掘技术做了较全面的论述,对数据挖掘的各个环节,提出了用XML技术来解决的途径,为这两个热点问题找到了新的结合点.1.该文以铁通综合信息服务网(CRIS)系统作为数据挖掘的环境,提出一个基于XML的数据挖掘模型——XDMS,在该模型中主要研究了基于XML的异构数据集成、半结构化数据预处理和XML数据集上的数据挖掘三个问题.2.异构数据源的联合使用是基于XML的数据挖掘首先要解决的问题.该文提出将XML技术应用于异构数据集成,实现关系数据库系统和文件系统之间的集成整合与转换,有效地解决了异构数据集成的问题.3.在数据挖掘前期,还必须进行XML数据的预处理.该文论述了领域知识应用于数据预处理过程的特点和意义,介绍了一种面向数据预处理的领域知识的分类和表示方法,并在此基础上设计了将领域知识应用于XDMS数据预处理的模型和算法.4.对XML数据集进行关联规则挖掘是该文研究的重点,文中对经典的Apriori算法进行了详细剖析,在此基础上提出了一种适用于XML环境的移植和优化方案,并利用哈希技术,结合XML的DOM编程技术来实现,这种方案充分发挥了哈希表的快速索引以及XML文档对象模型的优势.最后,论文对仿真实验的运行结果进行了分析和比较,在结束语中对XDMS模型的优点进行了总结,并对进一步可能的研究进行了展望.
其他文献
安全的访问控制模型是目前数据库安全技术研究和发展的一个焦点.访问控制模型包括传统的自主访问控制模型和强制访问控制模型(也被称为基于格的访问控制模型),还有后来提出的
NGN通过开放式的业务接口来实现业务/控制的分离,使得业务开发独立于通信网的具体技术,已经成为通信行业研究和开发的热点.当前最有影响的开放式业务接口有Parlay和JAIN两个A
学位
随着网络信息技术的发展,我国对电力系统信息化的研究日益广泛。为进一步实现“节能降耗、竞价上网”的电力行业改革战略,本文提出研究网络分布计算的中间件平台及其实现技术,以
中间件是现阶段实现软件复用的主流技术,已成为当前计算机科学技术领域引人注目的重大研究课题。中间件以支持标准协议、分布计算,为应用和服务交互提供跨网络、硬件和OS平台的
随着逐步发展的面向移动终端的服务,越来越多的依赖于移动环境中内容递送的信息服务激发了对于移动推送服务的需求——面向移动用户的有效灵活的内容分发服务.随后相继推出的
目前,研究静止图像的水印算法是现在学术界的一个热点,相比图像的水印,研究文本水印的人要少的多.文本数字出版物越来越多,又亟需文本水印技术来保护知识产权以实现信息在解
近年来,随着计算机与电信网的不断融合,涌现了许多新的增值业务.这些业务推动了IT业的进一步发展.然而由于电信信令协议的复杂性和专业性,一项电信业务的开发和部署需要电信
三值光计算机用相互垂直的两个线偏振光和零光强三个独立的光状态表示信息;用二维液晶器件和偏振器实现此三个状态间的转换;采用三进制算术运算;直接处理三值逻辑运算;拥有巨
对科学计算处理能力的不断追求以及分布式信息系统的巨大发展,使得通过集群进行分布式计算成为一种极具吸引力的计算模式.广泛的研究表明,工作站33%到78%的时间是处于空闲的,因