数据挖掘及其在Web日志挖掘中的应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:kevin7878
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,人们尽情地享受到了网络带来的便利,网络已经成为人们日常生活中必不可少的一部分。但是,由于网络上资料上过多,已经远远超过人们的处理能力。不同的用户其使用兴趣和目的各不相同,人们都希望能够尽快地访问到出对自己有价值的网页。网站管理者为了增加网站的吸引力,希望能够了解客户的访问行为,来优化网站结构,提高响应速度,根据用户浏览行为,进行个性化页面推荐,从而更好地为客户提供优质的服务。数据挖掘的应用非常广泛,随着互联网与WWW的快速发展与使用,人们将数据挖掘技术应用到了web环境中,web挖掘已成为一个热门的研究领域。由于随着网络的发展,web日志的数据量急速地增加,这些隐藏在web日志文件中的信息,对于用户和网站管理者都能带来极大的好处。web挖掘主要区分为三类:内容挖掘、结构挖掘、以及使用挖掘。其中,使用挖掘也叫日志挖掘,是利用使用者在浏览网页时所留下的网页存取记录,来进行使用者行为特征模式的分析。以前在web日志挖掘的研究,从基于Apriori有候选集产生的使用模式挖掘算法和不产生候选集的前缀树类算法,都是希望以更有效率的方式来挖掘用户访问模式。   本文研究了如何从web日志中挖掘用户访问模式以及用户访问模式在个性化推荐中的应用。首先,本文介绍了数据挖掘的相关概念和技术,以及web挖掘的有关内容重点介绍了日志数据预处理技术,说明了怎样将web日志中的数据转换成用户访问序列。然后分析了挖掘用户访问模式常用的算法,以及它们的缺点,在此基础上,提出了改进的用户访问模式挖掘算法,利用树型结构来压缩用户访问序列和用户访问模式所需的全部信息,对该树不断进行调整,最后对该树进行遍历,即可挖掘出所有的用户访问模式,无须生成候选集。最后设计了一个由用户访问模式来进行页面个性化推荐的高效算法,将序列关联规则的置信度和页面的访问可能性相结合作为规则的兴趣度,将规则按兴趣度进行排序后,存放在树中,然后根据当前用户访问序列和访问模式的匹配情况,进行页面推荐。
其他文献
随着21世纪信息技术和互联网技术的迅猛发展,多媒体信息,特别是视频信息,已逐步取代纯文本信息,成为人们获取资讯的主要载体。视频会议、视频电话、远程学习和培训、远程医疗
随着移动通信技术的不断发展,传统无线网络将逐步被以移动IP为基础的无线网络所取代,但是无论是移动IPv4,还是移动IPv6,切换时延太长,都不能满足实时通信的需求。   为了满足实
现实世界中的许多系统都可以用关联网络表示,如WWW、引文网络、股票关联网络、蛋白质关联网络、神经网络等等。尽管这些网络有着不同的描述对象,它们却有许多共同点。社区结构
现实世界中,大部分的数据对象之间存在互相关联或交互关系,形成数量众多的、互联的、复杂的网络,不失一般性,我们称这种互联的网络为信息网络。例如,社交网络、万维网、论文
随着计算机网络的日益普及,信息安全已经成为一个急待解决的世界性问题。传统的安全保护技术采用认证、授权、访问控制和加密等机制,这不能阻止利用计算机软硬件系统的缺陷非
结构工程实验在城市基础设施建设、结构受损研究中发挥着重要的作用。目前我国结构工程实验大多在单独站点进行,资源不能有效共享,造成了昂贵实验设备利用率低、实验规模有限等
以受限自然语言形式的故事作为输入,以完整的动画片作为输出的计算机辅助动画自动生成系统涉及人工智能、电影艺术和多媒体等三大学科,能够大大缩短动画制作周期、削减成本,
随着信息技术的发展,信息系统的业务数据在人类的社会活动中的重要性越发明显,然而,没有任何保护措施的数据却极容易受到各种自然灾害如地震、火灾、洪水、战争、恐怖袭击或人为
随着计算机技术的不断发展,并行计算作为一种旨在降低运算时间、增加问题求解规模、提高求解精度的方法,在科学以及工程应用的计算模拟、商业应用的数据挖掘及事务处理等许多
随着信息技术、网络技术和自动化控制等研究领域的相互渗透,使得工业控制技术中嵌入式系统已应用到工业控制的各个领域,所以嵌入式技术已成为现代控制技术的发展方向之一。本