基于Web日志挖掘的聚类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:tianyi666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,人们对网络的依赖已经越来越大,而网络中的信息量随着网络用户及网络资源的发展而迅速膨胀,人们在信息的海洋中,也逐渐失去方向,用户如何从这巨大的信息量当中寻找出很小的一部分感兴趣的信息,商家如何改善自己的经营方式,网站如何改善自己的站点,这些问题的提出就引出了一个新的研究方向,即Web挖掘的研究,而Web挖掘当中,最重要的一个研究方向即为Web日志挖掘。所谓Web日志挖掘就是将Web日志数据引入到传统的数据挖掘当中,挖掘出知识的过程。Web日志数据本身与传统数据相比有一些独特的特点,这对有关的研究工作也带来了一定的挑战。目前,对于Web挖掘,尤其是Web日志挖掘的研究越来越多。本文通过学习大量的文献资料,系统的介绍了Web日志挖掘、聚类技术的基本理论,并针对部分算法的缺陷提出改进方法,并通过实验进行论证。首先,介绍了当前的研究现状,分别包括国内和国外的研究情况,相比之下,国外的研究比较成熟,而国内主要的研究依然处于理论研究阶段。然后,介绍了数据挖掘以及Web日志挖掘的理论内容,包括挖掘的过程以及挖掘的数据特点等。其次,重点介绍了Web日志挖掘的数据预处理的理论知识以及目前的研究方法,数据预处理的过程分别为数据清理、用户识别、会话识别、路径补充和事务识别。针对目前的研究情况,提出了一种预处理的改进方法,在会话识别时,使用用户访问树的方法,在不知道网站拓扑结构的情况下,依然能够得到用户的会话,并且可以省略掉路径补充的步骤,直接得到用户的事务。在事务识别过程当中,对事务当中的每个页面进行分类并记录,分别记为导航页面和内容页面,如果事务中所有的页面均为导航页面,将其看作是无效事务,将其去除,大大的减少了数据库的容量,但并不减少数据的信息量,这对后期的研究工作也是非常有意义的。最后,详细介绍了聚类分析的相关理论知识,并给出了页面兴趣度、相似度的定义,然后重点介绍了K-means算法,并对其优缺点进行分析。针对K-means算法原有的初始中心点的选择问题、噪声数据的影响等提出改进方法,使用一种模糊的划分原则将整个数据集分类,再使用密度的方法对这个划分进行调整,从而得出K个高密度的区域。这样得出的K值比依靠经验获得的K值更合理,并从这K个高密度区域分别选择一个点作为初始中心点,这比随机选择的K个初始中心点得到的聚类结果更稳定、更加合理。同时,在对均值计算时引入权重,目的是为了减小噪声数据对均值点的确定的影响。计算加权均值得到的质心能够更加靠近簇的距离较近的数据堆,从而削弱了包含孤立点的簇计算质心时偏离数据堆的情形。然后利用标准数据集进行实验,验证了改进算法的有效性,最后将此算法应用到Web日志数据当中,对用户事务进行聚类,得到的聚类结果中簇内相似度更高,要优于原始的K-means算法得到的聚类结果。最后,对本文进行总结并提出在研究过程所面临的部分问题但还没有进行深入研究的地方,提出了未来的研究方向。
其他文献
随着互联网技术的迅速发展,Web信息正以指数级的速度增长,如何在这些海量的信息中检索出用户需要的信息已成为一个非常重要的课题。由于用户查询词与文档关键词不匹配,传统信
随着Kerberos和SAML (Security Assertion Markup Language,安全断言标记语言)等技术的不断发展,跨域单点登录技术已经成为了信息安全领域的研究热点。现有的几种跨域单点登
群搜索优化算法是S. He,Q. H. Wu和J. R. Saunders.于2006年共同提出的,来源于对动物觅食行为和群居形态的一种模仿,并首次利用了生物学的视觉搜索原理。但标准群搜索优化算
睡眠障碍对人类健康的危害和对生命安全的威胁已经逐渐引起人们的重视,针对睡眠障碍的自动监测分析系统已成为国内外医疗仪器领域的重要研究课题之一。嵌入式系统以其体积小
随着流媒体技术和无线通信技术的快速发展,无线流媒体传输成为网络应用的热点之一。多媒体数据在给人们带来丰富多彩的服务的同时,也带来了新的挑战。实现多媒体数据在无线网
私有信息检索(Private Information Retrieval,PIR)允许用户检索n-比特串d=d1d2…dn的第i个比特di,而不泄漏i的任何信息。在私有信息检索中加入对服务器的数据隐私的保护,私有
车牌牌照自动识别系统(LPR)是智能交通系统(ITS)的核心组成部分之一,通过摄像机拍摄的车辆图像,在不影响汽车状态的情况下,自动完成车牌的识别,降低交通管理工作的复杂度,减
近年来,随着物联网的不断发展,人们对作为物联网核心技术之一的RFID/EPC系统的研究也越来越深入。尽管大部分企业和供应商把重心放在RFID/EPC系统的实施效果和它们所带来的投
在大数据时代,人们可以很方便快捷地通过不同的渠道在互联网上获取到各类数据。这些数据由于人为录入的错误、数据版本的不同、数据来源不同、人为篡改等原因往往会存在数据
作为智能交通系统重要基础之一的车载Ad hoc网络,其设计目标是为车辆提供一个移动通信平台,从而提高交通效率,降低交通事故发生率,使旅行者能非常方便快捷地接入互联网。在车