论文部分内容阅读
随着网络技术的发展和计算机应用的日益普及,电子化数据越来越多,在海量数据面前,人们正面临“数据丰富而知识贫乏”的问题。八十年代末兴起的数据挖掘(data mining)技术和数据库中的知识发现(knowledge discoVery indatabase,KDD)技术为解决此问题开辟了一条道路<[1]>。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程<[1]>。经过10多年的工作,数据挖掘技术的研究与应用已取得了很大的成果,然而,我们还面临着许多问题:
1、数据挖掘系统仅提供孤立的知识发现功能,难于嵌入大型应用。
2、数据挖掘引擎与数据仓库系统是松散耦合,T.Imielinski和H.Mannila称之为“文件挖掘(file mining)系统”。<[1]>
到目前为止,数据挖掘行业是高度分散的,公司和研究机构独立开发各自的数据挖掘系统和平台,没有形成开放性的标准,没有提供跨平台支持,跨数据仓库系统支持。
本文首先介绍了国内外数据挖掘系统的研究历史与现状,然后在已有的数据挖掘系统体系基础上,提出数据挖掘系统与数据仓库系统紧密耦合的策略,实现数据挖掘系统的嵌入式应用,提高数据挖掘系统的跨数据仓库系统的支持能力,同时解决数据仓库系统结果展示单一的问题,提出实现嵌入式数据挖掘系统的可视化展示的功能,针对数据挖掘系统与数据仓库系统的关系进行深入研究和探讨。
本文有以下创新:
(1)提出了数据挖掘系统与多种数据仓库系统紧密耦合的策略,将整个数据挖掘系统和整个数据挖掘流程完全控制在数据仓库系统中,使数据挖掘系统和数据仓库系统达到更紧密的结合效果。
(2)本文的嵌入式数据挖掘系统具有较好的开放性,支持用户开发的数据挖掘算法,满足用户根据自身需求,灵活开发的适用性更强的算法并将算法嵌入系统。