基于粗糙集的Web用户访问模式挖掘

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wangjj167
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘和万维网技术的结合,使得从收集到的访问Internet网站日志记录中进行数据挖掘成为可能。将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,便形成了Web日志访问模式挖掘。Web日志访问模式挖掘是从Web访问日志中挖掘有用的用户访问,用于找出最频繁访问时间、关联模式、序列模式、聚类模式、分类模式及Web访问趋势等,这对于优化站点结构、为不同类别的用户提供个性化的服务具有重要意义。Web日志访问模式挖掘是目前数据挖掘领域的热点,本文针对Web使用的数据源的特点,详细论述了Web日志访问模式挖掘的概念、方法和过程。首先,本文对Web日志挖掘数据预处理的进行了研究。Web日志挖掘的对象不是网络上的原始数据而是从用户和网络交互过程中抽取出来的访问数据,它包括所请求的URL、发出请求的IP地址和时间戳等,这些数据提供了有关用户访问的丰富信息。本文在这部分的研究重点是如何提取有关用户访问的特征(如用户的访问行为、频度、内容等),以及建立基于用户访问行为的数据模型。其次,对基于粗糙集理论的Web日志访问模式挖掘的研究。在粗糙集理论中,知识被看成是一种分类能力,即在域上构造分区的能力。本文在基于粗糙集理论的思想上对预处理后的数据进行离散化,并给出了一种数据模型,使用约简算法约简而且提取出稳定的分类规则。由于Web日志中事务的类与类之间边界的不确定性,还给出了一种新的使用粗糙集理论对Web事务中用户存取模式进行聚类的方法,该方法既考虑了事务数据的序列次序也顾及了其集合的内容,建立在实验集上的实验结果表明该算法是可行的。最后,指出了本论文需进一步研究解决的问题,并对下一步Web日志挖掘研究进行了展望。
其他文献
语音识别技术日趋成熟,但仍存在一系列难题亟待解决。其中较为突出的是:对数据的标注成本高、耗时长,想获得大量的标注数据十分困难,而另一方面,却很容易获得大量的未标注数
单核苷酸多态性(SingleNucleotidePolymorphism,SNP)是指在基因组水平上由单个核苷酸变异所引起的DNA序列的多态性。在各类单体型中,少部分SNP位点包含绝大部分的遗传变异信息,这
在企业信息系统软件的开发中,为了提高开发效率、增强软件的可复用性和可移植性等性能,越来越多的软件开发都采用模型驱动架构(Model Driven Architecture, MDA)方法学。业务
互联网的飞速发展与数字视频媒体的广泛应用在给人们带来便利的同时也带来了数字内容的非法复制和盗版等版权保护问题,传统的密码学对此无能为力,因此,新的视频水印技术应运
硅工艺朝着物理极限的不断迈进,导致了由摩尔定律和登纳德定律组成的集成电路传统缩放模型失效。在芯片功耗墙的限制下,人们发现在后登纳德定律时代,芯片设计中存在使用墙问题以
为解决不同移动应用系统中电子表单的设计问题,根据软件构件设计的基本原则,提出了一种电子表单构件模型和电子表单构件的系统框架。依据电子表单构件的系统框架,给出了基于A
随着现代社会对安全要求的提高,传统身份识别方法受到局限,生物识别技术作为实现安全的手段得到大力的研究和发展。步态识别作为生物特征识别技术的新兴领域,以其难于隐藏和
现代计算机的性能主要由每周期所执行的指令数(IPC)来衡量,而现代计算机的体系结构依靠指令级并行来改善性能。为了获得更高的IPC,需要尽可能多的以潜在的顺序而不是程序序列
路径规划优化方法及其应用是人工智能领域备受关注的一个研究方向,基于蚁群算法研究路径规划是其中具有代表意义的方法之一。从不同的应用问题背景来看,目前已提出的基于蚁群
随着因特网与计算机技术的飞速发展,网络应用已触及到社会生活的各个角落。而目前的网络安全现状不容乐观,安全威胁层出不穷。特洛伊木马作为一种主要攻击手段,具有较强的隐蔽性