基于XML和Web数据的关联规则挖掘研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:chenghao131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,随着Internet的迅速发展,互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断发展,互联网上越来越多的信息都开始使用XML表示。XML以其可扩展、平台独立、灵活、规范和简单等特点以及强大的数据表达能力,在网络和其他领域的数据表示和交换方面都扮演着越来越重要的角色。因此,人们迫切地需要寻找一些有效的方法从这些大量的XML数据中提取一些潜在的、有价值的信息和知识。但是Web上的XML数据非常复杂,没有特定的模型描述数据,是半结构化的甚至是无结构的数据。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。它对半结构化数据的集成和组织,对挖掘算法的性能都提出了新的挑战。本文根据Web上XML数据的半结构化的特点以及XML查询语言XQuery、.NET DOM对XML操作的支持,针对如何直接从XML数据中提取有价值的关联规则进行了探索性研究。论文首先对XQuery实现的Apriori算法作了比较深入的研究,针对Apriori算法不适应挖掘结构复杂不规则的XML文档数据和挖掘大规模的XML文档数据效率不高的局限分别作了相应地改进。实验表明,改进后的算法能够有效地从XML数据中抽取关联规则。其次,论文也重点探讨了如何使用.NET DOM对XML数据进行直接关联规则挖掘。.NET DOM采用面向对象机制将对XML的操作封装成类库,用其实现的关联规则挖掘算法更符合人类的思维方式,更容易理解。而且,.NET DOM实现的算法的可视化更强,算法编译执行,速度更快。此外,论文从电子商务网站的购物篮数据中抽取了一部分典型的挖掘数据,构造了具体的实验,根据实验的结果对上述两种算法的优缺点进行了对比分析。实验结果表明,在不同的环境需求下,两种算法有着各自的强势和劣势,从而可以指导人们在未来XML的关联规则挖掘过程中,应该根据不同的需求和挖掘环境选择不同的挖掘方法,才能使数据挖掘的效率和性能得到优化。最后,本文提出了一个基于XML和关联规则挖掘的Web挖掘系统的五层架构模型,对该模型的各个功能模块进行了详细地介绍。并且根据该模型,设计了一个面向电子商务网站的基于XML的关联规则挖掘系统模块。该模块能够处理多种数据源,支持多种关联规则挖掘算法以及挖掘结果的可视化表达,具有综合性和可扩展性的特点。
其他文献
教育生活中的制度性羞辱以排斥、贬低、支配和污名为主要类型。作为一种精神伤害,教育羞辱造成受教育者自我厌憎与"习得性无助",个性泯灭与"标签内化",丧失自主与过度服从,权
当前环保问题日趋突出,节能减排成为社会发展的必然选择。船舶使用轴带发电系统能够降低油耗、减少环境污染,提高经济性,改善工作环境,在船上得到广泛应用,研究和应用价值较
出租车行业提供服务的质量日益影响着该行业的生存和发展。乘客满意度测评指标体系在研究影响顾客满意度的因素基础上,形成满意度测评模型,并给出模型中各指标体系的权重系数
公路已成为全球景观中一种重要的景观类型,其里程和密度在逐年增加。公路建设项目,尤其是公路网络的形成不仅减少了自然生境的数量,而且严重降低了自然生境的质量。公路建设
目的 探讨叶酸联合维生素B12对首发精神分裂症患者血清炎性细胞因子、神经生长因子(NGF)、脑源性神经营养因子(BDNF)、叶酸、维生素B12(VitB12)、同型半胱氨酸(Hcy)及阳性和
本研究选取三个小麦品种,甘春20号、甘春24号、中麦175为试验材料,进行茎尖愈伤组织培养及植株再生的研究,探讨了基因型、茎尖生长天数及切取部位、培养基、激素(2,4-D,KT与6
该研究以景宁木兰(Magnolia sinostellata)为材料,从外植体类型的选择、消毒时间、预处理方法、离体培养条件和抗褐化剂类型选择等方面进行综合研究,以期筛选出景宁木兰组织培
<正> 思维的变通性在思维能力的考查中一直居于重要地位,主要表现为要能根据试题的情境灵活地变换思维角度,准确有效地解决问题,从而化繁为简,出奇制胜,甚至绝处逢生。初中化
根据航运船舶和大型船舶航行的特点,对船舶轴带发电机作为船用电站组成系统及其应用进行了分析,探讨了不同阶段的船舶轴带发电机的技术方案,分析了其经济性及节能减排效果,结
<正>育龄夫妻在有规律无保护措施的性生活情况下连续1年未能怀孕,需进行生育力评价。男性生育力评价依靠详细的病史查体、精液分析以及必要的辅助检查来全面综合进行。单纯或