【摘 要】
:
随着Internet的飞速发展,网上的数据资源空前丰富。每天都会有成千上万的用户在网络上浏览和寻找自己所需的信息。然而,由于信息量的庞大,对于每个用户来说,如何能够及时快速
论文部分内容阅读
随着Internet的飞速发展,网上的数据资源空前丰富。每天都会有成千上万的用户在网络上浏览和寻找自己所需的信息。然而,由于信息量的庞大,对于每个用户来说,如何能够及时快速地发现有用信息则变得异常困难。为了解决上述问题,Web挖掘技术应运而生。其中,面向Web服务器日志的Web使用挖掘技术尤其得到了广大研究人员的关注。Web日志数据记录了用户对Web站点的访问信息,对这些信息进行分析可以发现用户访问站点的浏览模式和访问习惯,对于页面重组、优化网站的结构,以及在电子商务智能的应用等方面都具有十分重要的意义。本文对Web挖掘与Web使用挖掘进行了系统的分析和研究,并在已有研究的基础上改进并提出了两个新的算法。本文的工作主要有以下几个方面:(1)对Web挖掘的基本理论知识和分类进行了总体研究,重点分析研究了Web使用挖掘的基本思想和经典算法。(2)在分析关联规则经典算法Apriori的基础上,提出一种基于事务矩阵的关联规则挖掘算法,通过将事务数据库映射为一个事务矩阵,对事务矩阵进行操作以得到所有的频繁项目集。理论分析和实验证明了新算法在性能上的优越性。将新算法应用于Web使用挖掘可以高效地发现用户之间、页面之间以及用户浏览页面和网上行为之间存在的潜在关系。(3)提出一种基于有向图的用户频繁访问模式挖掘算法,通过对Web事务数据库进行一次扫描,将所有页面之间的序列信息记录在有向图中,并从中挖掘所有的用户频繁访问模式。利用挖掘出的模式知识,可以帮助预测网页的访问情况,从而可以帮助合理地放置广告以针对特定用户群。
其他文献
Hidden Web中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然Hidden Web的信息量变得越来越大,但是现有搜索引擎对其的搜索
随着电信技术的日益成熟和电信市场竞争的逐步规范,电信运营商面对的竞争压力越来越大。为了在竞争中取胜,必须推出独具特色的、更具吸引力的业务吸引客户。电信运营商的经营
离群点检测是数据挖掘中重要的研究分支,用于识别某些特征显著区别于其他观测数据的对象。在实际应用如评估金融风险、检测结构的缺陷、侵入检测等领域中会出现的一些离群数据
随着计算机技术、网络技术,特别是Internet技术的飞速发展和广泛普及,人类社会正处于由工业经济向信息经济的深刻变革之中,信息化已经成为当今世界经济和社会发展的倍增器,成为了
近年来,随着嵌入式系统飞速发展,基于Linux的嵌入式系统已经能够提供统一的、可伸缩的解决方案,利用嵌入式Linux实现远程监控、图像采集与压缩成为可能。针对这一点,本文设计
随着互联网的高速发展和数据的爆炸性增长,用户面临着日益严重的信息过载问题,社会化媒体的兴盛使用户更加容易淹没在信息的海洋中。推荐系统作为一种比搜索引擎更加高效的信息
以总完工时间为目标的Flow shop调度问题是一个重要的制造加工系统,广泛应用于工业环境中。流水调度是很多实际流水线生产调度问题的简化模型,也是一类典型的NP完全问题,已被证
一个人的噪声可能是另一个人的信号,对于离群点的挖掘是数据挖掘领域的一个重要研究方向,在数据分析和挖掘的过程中,如何利用数据挖掘的相关技术准确的检测出数据中的离群点
计算机技术的发展把人类社会带入信息化时代,随着信息化进程的深入,通信技术与计算机及网络技术相融合,产生了一个新的研究领域--计算机支持的协向工作(CSCW-Computcr Supported
决策树是应用最广泛的数据挖掘方法之一,研究的重点围绕数据处理的准确率、效率及数据降维等方面,增量式学习能力也是决策树算法的主要特征。SURPASS就是高效的增量式算法,能