改进关联规则算法在Web挖掘中的应用研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:hrqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在竟争日益激烈的网络经济中,只有赢得用户,才能最终赢得竞争的优势。网站是企业进行信息发布的平台,是企业对外的形象和窗口。随着Web站点规模和复杂度的增加,站点的设计和维护工作变得越来越困难。对于企业运营方而言,为了吸引和留住更多的用户,就需要更好的方法或者是工具来掌握用户的访问兴趣、访问频度等等,从而动态的调整页面结构,改进服务,以满足访问者的需求。为了解决这方面的需求,Web数据挖掘被越来越多的人所关注。Web数据挖掘就是利用数据挖掘的思想和方法,在Web上挖掘有用的信息。本文基于国内外研究成果,首先介绍传统电子商务的基本概念,引入数据挖掘技术,并对数据挖掘的分类和过程进行了阐述。具体应用到Web的时候,着重介绍了Web访问信息挖掘,从它的构成要素、特点、挖掘过程以及应用全方面进行了叙述。在全面分析Web访问信息挖掘的数据准备过程中,提到了Web日志挖掘,针对数据预处理过程中遇到的难题,提出了一个减少数据预处理工作量的方法——采用网站过滤器。同时本文通过分析传统的关联规则算法Apriori存在的不足,给出了一个改进的算法DedApriori。并将其嵌入开源数据挖掘工具Weka,然后对不同规模数据挖掘的结果进行了比较。最后本文利用Web挖掘的思想,结合多种挖掘工具的优点对一个商业网站的部分日志和部分数据库交易记录进行了挖掘。并针对挖掘的结果进行了细致的分析,最终提出了一种改进网站结构的方案。
其他文献
嵌入式计算机是现代计算机技术改造传统产业、提升许多领域技术水平的有力工具,在数字化语言学习终端上有着广泛的应用。PXA255处理器是Intel公司生产的专用标准嵌入式计算机,
大规模的数据计算需要巨大的计算资源。因此,许多计算能力有限的客户端无法完成这种计算任务。幸运地是云计算的出现为大规模的数据计算提供了有效的解决方法。大规模数据计算
随着计算机计算能力的迅速提高,计算机的广泛普及以及Internet的迅速发展,个人信息的安全性正变得岌岌可危。传统的数据加密技术可以部分的克服信息的随意散布,但随着破译技
聚类分析是数据挖掘的重要研究领域之一,在工程、商业、生命科学、社会科学以及其他许多领域得到了广泛的应用。但由于聚类对象在高维特征空间分布的复杂性,聚类效果评价的不确
在进行数字作品版权保护的某些时候或者是电子政务、军事及法律金融等领域内,有时需要嵌入很大容量的隐密信息。特别的是信息隐藏技术将是未来信息化战争对抗的焦点,作为未来
随着互联网上多媒体数据的日益增多,人们面对的信息量是以“海量”来形容的。如何从网上众多信息中检索出自己的所需,是信息检索的一个难点。传统的基于文本的检索由于其自身的
随着新型嵌入式芯片层出不穷,相应的高级语言编译器是必不可少的。然而,编译器的复杂性决定了不可能在短时间内重新为一款新型芯片开发出高级语言编译器。因此,不断出现的新型芯
随着信息技术的广泛普及和应用,人们对知识服务的需求越来越强烈。知识服务离不开大型知识库的支持。仅仅依靠繁重的手工劳动来建设大型知识库,必将严重影响知识服务的能力和质
移动通讯技术的发展在近年来受到极大的关注,第三代移动通讯系统(Thirdgeneration,3G)提供了更大的覆盖范围、高速移动能力、完整的安全和计费机制以及全球的移动漫游功能。另
随着信息社会的发展,多媒体技术得到了越来越广泛的应用。在多媒体世界中,视频技术充当着关键的角色,尤其在视频监控、流媒体和数字电视领域。在实际应用中,视频技术与嵌入式系统