基于XML和Web数据的关联规则挖掘研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：chenghao131

【摘要】

：

近十几年来，随着Internet的迅速发展，互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断

【作者】

：

曹春静

【出处】

：

华东师范大学

【发表日期】

：

2008年期

【关键词】

：

关联规则 XML XQuery Apriori算法 .NET DOM Web挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近十几年来，随着Internet的迅速发展，互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断发展，互联网上越来越多的信息都开始使用XML表示。XML以其可扩展、平台独立、灵活、规范和简单等特点以及强大的数据表达能力，在网络和其他领域的数据表示和交换方面都扮演着越来越重要的角色。因此，人们迫切地需要寻找一些有效的方法从这些大量的XML数据中提取一些潜在的、有价值的信息和知识。但是Web上的XML数据非常复杂，没有特定的模型描述数据，是半结构化的甚至是无结构的数据。所以，面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。它对半结构化数据的集成和组织，对挖掘算法的性能都提出了新的挑战。本文根据Web上XML数据的半结构化的特点以及XML查询语言XQuery、．NET DOM对XML操作的支持，针对如何直接从XML数据中提取有价值的关联规则进行了探索性研究。论文首先对XQuery实现的Apriori算法作了比较深入的研究，针对Apriori算法不适应挖掘结构复杂不规则的XML文档数据和挖掘大规模的XML文档数据效率不高的局限分别作了相应地改进。实验表明，改进后的算法能够有效地从XML数据中抽取关联规则。其次，论文也重点探讨了如何使用．NET DOM对XML数据进行直接关联规则挖掘。．NET DOM采用面向对象机制将对XML的操作封装成类库，用其实现的关联规则挖掘算法更符合人类的思维方式，更容易理解。而且，．NET DOM实现的算法的可视化更强，算法编译执行，速度更快。此外，论文从电子商务网站的购物篮数据中抽取了一部分典型的挖掘数据，构造了具体的实验，根据实验的结果对上述两种算法的优缺点进行了对比分析。实验结果表明，在不同的环境需求下，两种算法有着各自的强势和劣势，从而可以指导人们在未来XML的关联规则挖掘过程中，应该根据不同的需求和挖掘环境选择不同的挖掘方法，才能使数据挖掘的效率和性能得到优化。最后，本文提出了一个基于XML和关联规则挖掘的Web挖掘系统的五层架构模型，对该模型的各个功能模块进行了详细地介绍。并且根据该模型，设计了一个面向电子商务网站的基于XML的关联规则挖掘系统模块。该模块能够处理多种数据源，支持多种关联规则挖掘算法以及挖掘结果的可视化表达，具有综合性和可扩展性的特点。

其他文献

不羞辱与正派教育制度

教育生活中的制度性羞辱以排斥、贬低、支配和污名为主要类型。作为一种精神伤害,教育羞辱造成受教育者自我厌憎与"习得性无助",个性泯灭与"标签内化",丧失自主与过度服从,权

期刊

教育羞辱不羞辱正派教育底线伦理

船舶永磁轴带发电系统研究

当前环保问题日趋突出,节能减排成为社会发展的必然选择。船舶使用轴带发电系统能够降低油耗、减少环境污染,提高经济性,改善工作环境,在船上得到广泛应用,研究和应用价值较

学位

永磁同步发电机变速恒频恒压PWM技术无电感参数电压电流双闭环控制

出租车乘客满意度测评指标体系构建

出租车行业提供服务的质量日益影响着该行业的生存和发展。乘客满意度测评指标体系在研究影响顾客满意度的因素基础上,形成满意度测评模型,并给出模型中各指标体系的权重系数

期刊

层次分析法乘客满意度指标体系象限法

公路建设的主要生态影响

公路已成为全球景观中一种重要的景观类型,其里程和密度在逐年增加。公路建设项目,尤其是公路网络的形成不仅减少了自然生境的数量,而且严重降低了自然生境的质量。公路建设

期刊

公路生境生态影响公路网络生境破碎化

叶酸联合维生素B12对首发精神分裂症患者影响研究

目的探讨叶酸联合维生素B12对首发精神分裂症患者血清炎性细胞因子、神经生长因子(NGF)、脑源性神经营养因子(BDNF)、叶酸、维生素B12(VitB12)、同型半胱氨酸(Hcy)及阳性和

期刊

精神分裂症叶酸维生素B12炎症趋化因子类神经生长因子类

小麦茎尖再生体系的优化与CL5227基因的遗传转化

本研究选取三个小麦品种,甘春20号、甘春24号、中麦175为试验材料,进行茎尖愈伤组织培养及植株再生的研究,探讨了基因型、茎尖生长天数及切取部位、培养基、激素(2,4-D,KT与6

学位

茎尖愈伤组织再生体系农杆菌介导法遗传转化

景宁木兰组织培养外植体选择与抗褐化研究

该研究以景宁木兰（Magnolia sinostellata）为材料,从外植体类型的选择、消毒时间、预处理方法、离体培养条件和抗褐化剂类型选择等方面进行综合研究,以期筛选出景宁木兰组织培

期刊

景宁木兰消毒时间暗培养抗褐化剂组织培养抗褐化成活率

巧解习题训练学生思维的变通性

<正> 思维的变通性在思维能力的考查中一直居于重要地位,主要表现为要能根据试题的情境灵活地变换思维角度,准确有效地解决问题,从而化繁为简,出奇制胜,甚至绝处逢生。初中化

期刊

变通性习题训练学生思维

船舶轴带发电机的应用及发展

根据航运船舶和大型船舶航行的特点,对船舶轴带发电机作为船用电站组成系统及其应用进行了分析,探讨了不同阶段的船舶轴带发电机的技术方案,分析了其经济性及节能减排效果,结

期刊

远洋船舶轴带发电机双馈定距桨船用电站

精液检查的基本要求及其结果解释

<正>育龄夫妻在有规律无保护措施的性生活情况下连续1年未能怀孕,需进行生育力评价。男性生育力评价依靠详细的病史查体、精液分析以及必要的辅助检查来全面综合进行。单纯或

期刊

精液检查精液分析精子活力正常形态精子男性生育力精液指标畸形精子症精道梗阻精子畸形结果解释

基于XML和Web数据的关联规则挖掘研究

与本文相关的学术论文