论文部分内容阅读
随着网络的快速发展,人们尽情地享受到了网络带来的便利,网络已经成为人们日常生活中必不可少的一部分。但是,由于网络上资料上过多,已经远远超过人们的处理能力。不同的用户其使用兴趣和目的各不相同,人们都希望能够尽快地访问到出对自己有价值的网页。网站管理者为了增加网站的吸引力,希望能够了解客户的访问行为,来优化网站结构,提高响应速度,根据用户浏览行为,进行个性化页面推荐,从而更好地为客户提供优质的服务。数据挖掘的应用非常广泛,随着互联网与WWW的快速发展与使用,人们将数据挖掘技术应用到了web环境中,web挖掘已成为一个热门的研究领域。由于随着网络的发展,web日志的数据量急速地增加,这些隐藏在web日志文件中的信息,对于用户和网站管理者都能带来极大的好处。web挖掘主要区分为三类:内容挖掘、结构挖掘、以及使用挖掘。其中,使用挖掘也叫日志挖掘,是利用使用者在浏览网页时所留下的网页存取记录,来进行使用者行为特征模式的分析。以前在web日志挖掘的研究,从基于Apriori有候选集产生的使用模式挖掘算法和不产生候选集的前缀树类算法,都是希望以更有效率的方式来挖掘用户访问模式。
本文研究了如何从web日志中挖掘用户访问模式以及用户访问模式在个性化推荐中的应用。首先,本文介绍了数据挖掘的相关概念和技术,以及web挖掘的有关内容重点介绍了日志数据预处理技术,说明了怎样将web日志中的数据转换成用户访问序列。然后分析了挖掘用户访问模式常用的算法,以及它们的缺点,在此基础上,提出了改进的用户访问模式挖掘算法,利用树型结构来压缩用户访问序列和用户访问模式所需的全部信息,对该树不断进行调整,最后对该树进行遍历,即可挖掘出所有的用户访问模式,无须生成候选集。最后设计了一个由用户访问模式来进行页面个性化推荐的高效算法,将序列关联规则的置信度和页面的访问可能性相结合作为规则的兴趣度,将规则按兴趣度进行排序后,存放在树中,然后根据当前用户访问序列和访问模式的匹配情况,进行页面推荐。