论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们拥有和积累的数据越来越多。数据挖掘在最近几年里已被数据库界广泛研究和应用,而关联规则的挖掘在其中占有很重要的地位,其在商务决策的制定方面的应用很有前景,而由于XML文档结构上的特殊性,对X2ML文档的关联规则挖掘的研究还存在很多问题,而且想要产生多层次的挖掘结果也很难。因此,本文提出一种将领域本体引入到XML文档挖掘过程中的算法——基于本体的XML关联规则挖掘算法。首先,本文介绍了数据挖掘、XML和本体论的基本知识及相关技术。其次,分析了XML在数据挖掘中的应用,介绍了面向XML文档的数据挖掘技术,提出了将领域本体知识引入到数据挖掘中以得到更多层次的数据挖掘结果,给出了基于本体的XML关联规则挖掘算法。该算法的优点在于:引入领域本体知识,使关联规则的挖掘可以在更多层次上进行;将XML文档解析后存入哈希表,可以提高扫描XML文档的速度;根据用户的要求将领域本体解析后存入哈希表,不需要在每次查找领域知识时都到读取硬盘。最后,对算法进行了理论上的分析,并且通过对给定数据的实验,验证了算法的挖掘效果,论述了该算法的优点和不足。