论文部分内容阅读
近十几年来,随着Internet的迅速发展,互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断发展,互联网上越来越多的信息都开始使用XML表示。XML以其可扩展、平台独立、灵活、规范和简单等特点以及强大的数据表达能力,在网络和其他领域的数据表示和交换方面都扮演着越来越重要的角色。因此,人们迫切地需要寻找一些有效的方法从这些大量的XML数据中提取一些潜在的、有价值的信息和知识。但是Web上的XML数据非常复杂,没有特定的模型描述数据,是半结构化的甚至是无结构的数据。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。它对半结构化数据的集成和组织,对挖掘算法的性能都提出了新的挑战。本文根据Web上XML数据的半结构化的特点以及XML查询语言XQuery、.NET DOM对XML操作的支持,针对如何直接从XML数据中提取有价值的关联规则进行了探索性研究。论文首先对XQuery实现的Apriori算法作了比较深入的研究,针对Apriori算法不适应挖掘结构复杂不规则的XML文档数据和挖掘大规模的XML文档数据效率不高的局限分别作了相应地改进。实验表明,改进后的算法能够有效地从XML数据中抽取关联规则。其次,论文也重点探讨了如何使用.NET DOM对XML数据进行直接关联规则挖掘。.NET DOM采用面向对象机制将对XML的操作封装成类库,用其实现的关联规则挖掘算法更符合人类的思维方式,更容易理解。而且,.NET DOM实现的算法的可视化更强,算法编译执行,速度更快。此外,论文从电子商务网站的购物篮数据中抽取了一部分典型的挖掘数据,构造了具体的实验,根据实验的结果对上述两种算法的优缺点进行了对比分析。实验结果表明,在不同的环境需求下,两种算法有着各自的强势和劣势,从而可以指导人们在未来XML的关联规则挖掘过程中,应该根据不同的需求和挖掘环境选择不同的挖掘方法,才能使数据挖掘的效率和性能得到优化。最后,本文提出了一个基于XML和关联规则挖掘的Web挖掘系统的五层架构模型,对该模型的各个功能模块进行了详细地介绍。并且根据该模型,设计了一个面向电子商务网站的基于XML的关联规则挖掘系统模块。该模块能够处理多种数据源,支持多种关联规则挖掘算法以及挖掘结果的可视化表达,具有综合性和可扩展性的特点。