Web日志挖掘相关算法研究及其原型系统设计

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:ah12345679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。一般来说,它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文以Web日志记录为基础对Web使用挖掘过程进行了系统的分析和研究,在前人研究的基础上改进并提出了三个新的算法,并将这些算法引入到Web使用挖掘过程中,设计了一个Web日志挖掘原型系统(WLMS)。本文的工作主要有以下几个方面:1、在改进FP-growth算法的基础上,提出挖掘用户频繁访问模式序列的FAS-Mining算法,通过构建FAS-tree,在其上进行挖掘得到最大频繁访问模式序列,进一步转换生成模式分析所需的不同深度的频繁访问模式序列,并分析了相应的增量更新算法,通过实验证明了算法的有效性。2、提出一种快速挖掘Web页面间关联规则的算法,结合网站既有拓扑结构和Web页面信息,定义相应的页面距离,保证页面关联规则有较高的兴趣度,以发现网站设计和用户访问兴趣关联的不一致,为网站结构优化提供有效的决策参考。3、提出一个快速有效挖掘Web日志文件中聚类模式的CLOPE-1算法,从提高用户覆盖面和减少收益值计算量的角度,改进CLOPE聚类算法,并分析了算法的时间和空间复杂度,探讨了算法在Web日志挖掘中的具体应用,并在具有典型结构的合成数据上进行了用户聚类的实验。4、把现有的一些通用的Web挖掘技术及本文提出或改进的算法集成起来,结合关系数据库的特点,完成了一个Web日志挖掘原型系统WLMS的设计工作,阐述了系统整体实现的考虑,并按照挖掘的过程简要介绍了系统的处理流程及各个主要组成模块的接口和功能设计。
其他文献
随着窃密型木马技术的发展,基于主机的木马检测技术已无法满足安全防护的需求。本文主要研究基于网络的木马通信流行为描述方法与木马通信行为检测技术。通过分析木马通信过
现在流行的电子商务以台式PC机为主要终端,是“有线的电子商务”。移动电子商务,它由电子商务的概念衍生出来,是指通过手机、传呼机、掌上电脑、笔记本电脑等移动通讯设备与无线
Web服务作为一种新兴的Web应用模式,是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制,它能够很好的解决电子商务应用的高维护代价和高更新代价的问题,成为目前应用
并行分布式处理是当前计算机发展的主要挑战问题之一,也是当前计算机科学的一个热点。在并行分布计算中,调度问题是分布计算的瓶颈问题之一。这个问题对发挥系统的并行计算能
当今,企业信息化极大地提高了企业的核心竞争力。各种各样的企业级应用系统的使用缩短了业务流程执行的周期,提高了业务处理的效率,降低了业务处理的成本,并且能够为企业未来
网络技术的不断发展、网络知识的不断普及,使得我们的生活发生了根本性的变革,社会生活的各个方面都受到了极大的影响,网络系统已成为现代生活中不可或缺的组成元素。但与此同时
随着市场经济社会的快速发展,税收征管工作日趋复杂,税源监控信息化建设是完善税收征管工作的重要一环,也是完善税制、提高税收征管效率的发展趋势。基层税务机关的根本任务是纳
预测不仅是决策的基础,而且是辅助决策的工具。预测的方法以及预测的精度是决策支持系统的核心问题。然而要想做出科学的决策,其前提必须是准确的预测。本文的研究工作主要是对
随着软件系统的复杂化和大型化,保证软件可靠性变的越来越重要。运行时验证作为一种轻量级的的验证框架,它同时具备了形式化方法的准确性和测试的方便性,同时也避免了模型检测的
随着计算机应用技术的不断发展,在大多数企业中,几乎各部门都使用和他们业务相关的管理系统。这些系统往往是不同公司开发的,它们通常在不同平台下或者是在不同的后台数据库环境