【摘 要】
:
随着因特网的普及和迅速发展,电子商务的快速发展也得到研究者们更多的关注,期望能够在这种崭新的商务形式下,利用它的诸多优点,取得更多的经济效益。Web服务器以日志的方式
论文部分内容阅读
随着因特网的普及和迅速发展,电子商务的快速发展也得到研究者们更多的关注,期望能够在这种崭新的商务形式下,利用它的诸多优点,取得更多的经济效益。Web服务器以日志的方式记录下人们的诸多浏览动作,这就可以以此为根据改善网站的拓扑结构,从而改进网站的性能,也允许让我们来更深的探讨用户浏览站点的特有方式,为客户提供更多的人性化服务。由于商业上有如此强烈的需求,由此产生了对Web日志进行挖掘。因此,开展本研究方向有很大的实用意义和价值。本论文针对Web使用挖掘进行了较深入的研究。首先对Web挖掘、Web日志挖掘的基本理论知识和分类进行了总体研究。具体说明了数据来源及日志记录的内容与格式。接着,具体研究了日志挖掘的预先处理日志的过程,包含清理数据,辨别用户,辨别会话,过滤框架,补充路径,辨别事务。然后,详尽介绍了关联原理的一些基本概念,讲述了基于关联原理的经典算法-Apriori算法。重点是提出了在算法Apriori的基础上把事务集放进事务矩阵的思想,对原算法进行了一定的改进。改进算法首先去掉首页,这样会明显的减少矩阵的维数,然后不再需要搜索候选项集,提高了计算的效率。理论分析和实验证明了改进的算法是有效且可行的。接着利用频繁项求出关联规则,这样通过Web日志得到了有联系的规则。最后根据Web日志挖掘的流程设计并实现了一个基本的挖掘系统进行实验,此系统设计为三大部分:数据预先处理模块,频繁模式挖掘模块,关联规则挖掘模块。
其他文献
随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果
近年来,随着Web 2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大
伴随着互联网的不断发展,越来越多的用户每天在网络上进行着社交、网上购物、浏览新闻等不同类型的网络活动,同时网站后台记录了这些用户大量的交互信息、购买、点击、浏览等
在未来国际上和我国的对地观测计划中,先进的多光谱、高光谱、多角度和微波遥感器层出不穷,它们将在人类认识地球甚至宇宙空间中扮演十分重要的角色。但是航天技术和遥感器技术的发展最终还是要落实在遥感应用上,因此以应用为导向的遥感器设计和应用模型的发展是真正体现航天遥感价值的关键。而对这些遥感器进行前期技术论证以及遥感应用模型开发的一个关键环节就是遥感图像的前期模拟,而在遥感图像模拟过程中,速度慢是制约其应
近年来XML已越来越被广泛的用于互联网上各种数据交换与数据表示,越来越多的公司与组织都通过XML来进行数据的交换与存储。但是XML有个致命的缺点:结构数据冗余。XML表示有效
实施远程教育的关键是创设能够促进学习者主动学习的网络环境,而学习者在网络学习环境中的学习活动离不开以实验为代表的实践学习,虚拟实验室的建立对于提高远程教学的学习效
当前,随着计算机和信息处理技术的迅猛发展,应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。传统的存储技术在面对海量数据的挑战时显得愈加的乏力。由Apache基
近年来,人们面对海量数据很难有效地分辨出哪些是自己真正需要的信息。随着信息量的不断增大,信息的利用率反而降低,这就是信息过载现象。随着大量网络信息的数字化,搜索引擎
多智能体系统中的任务规划是近年来研究的热点之一。机器人救援仿真系统是一个典型的异构多智能体系统,为在动态复杂场景下快速、高效规划救援任务,提高救援效率,将灾难损失
特征交互问题源于电信领域。电信系统为不断满足用户需求而不断开发和配置新的增值服务的同时,由于需求冲突、资源竞争、基础设施不足等原因可能导致这些增值服务之间发生非