基于粗糙集的Web日志挖掘

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:pangdunpiwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是一种刻划不完整性和不确定性的数学工具,它主要的特点在于不需要关于数据的任何预备的或额外的信息就能够有效地分析和处理各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论已经在决策支持、模式识别、过程控制、机器学习等许多科学和工程领域得到成功的应用,并日益受到国际学术界的重视。粗糙集问题的核心在于数据离散化和属性的约简。但是,已经证明求解所有约简和求解最小约简都是NP-hard问题,因此,寻求快速的约简算法仍是粗糙集理论的主要研究课题之一。本文着重研究数据挖掘的粗糙集理论,尤其是数据离散和属性约简。关于属性的离散化,主要介绍了等频、等间距、Nave Scale算法、Semi Naive Scaler算法,并通过UCI数据集对几种离散化算法做了比较,我们并且发现,选取不同的算法,会导致后面约简结果产生很大差异。基于粗糙集理论的属性约简算法粗糙集中最核心的部分,文章主要讨论的约简算法包括:基于差别矩阵和逻辑运算的属性约简算法、改进的启发式属性约简算法、遗传算法、这些算法本身有着各自的特点。数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种新的信息技术,它融合了数据库、人工智能、机器学习以及统计学等多种学科。Web挖掘将数据挖掘技术应用于大规模Web数据,能够发现有关用户浏览行为的隐藏模式规则,具有广阔的应用前景。Web挖掘可分为三种:Web使用挖掘、Web内容挖掘、Web结构挖掘。本文的研究重点在于Web使用挖掘(也称为Web日志挖掘)。日志挖掘是指通过挖掘Web日志记录来发现用户访问Web页面的模式,理解用户的行为,从而改进站点的结构,为用户提供个性化的服务,进一步分析和研究Web日志记录中的规律,改进Web站点服务器系统的性能。Web使用记录的挖掘日志:包括访问日志、引用日志、代理日志,错误日志等文件。Web日志挖掘包括三个阶段:数据预处理,模式发现,模式分析。所含的方法有:统计分析方法、关联规则方法、序列模式方法、聚类方法。日志预处理是Web日志挖掘过程中关键的一个部分。是对原始的日志文件中包含的不完整的、冗余的、错误的数据进行处理。当用户访问网络时,用户的所有信息将被保留在服务器中。由于Cookis、防火墙、和代理服务的存在,使数据的预处理更加的复杂。因此,数据预处理包括数据清洗、用户识别、会话识别、事物识别。在最后一章,我们详细的介绍了将粗糙集运用到整个日志挖掘的过程。
其他文献
在复杂的比赛环境下,由多个机器人构成的一个球队与对手球队进行对抗比赛。环境的动态性及对手不可预测的干扰,对于系统实时决策和机器人运动控制有着非常高的要求。因此,机器人
由于处理复杂事务的能力,工作流系统得到了日益广泛的应用。然而,在Internet和电子商务快速发展的今天,工作流系统还存在着很多不足。首先,工作流系统不能很好的支持Internet交互
蚁群优化(Ant Colony Optimization,简称ACO)是一种新兴的启发式模拟进化算法.人们对蚁群算法做了很多改进和扩展,在很多领域获得了广泛应用. 但是蚁群算法仍然存在一些问
随着我国信息技术的飞速发展,电子商务在企业的应用逐步深入,从单一的信息发布向更高层次的整合应用发展,推动了企业采购模式的转变,形成网络采购(Electronic Procurement)的
近年来随着Intemet与嵌入式系统的迅速发展,网络化的嵌入式产品已经成为IE产业的最大增长点,将嵌入式设备接入Intemet将成为一种必然,把Web服务器应用到嵌入式设备已经是可以实
无线传感器网络(WSN)是最近几年发展起来的一项新技术,它最早用于军事领域,如今的低成本传感器节点己经可以应用于空间探测、辐射检测、洪灾预警、农田管理、生物群落观测、机
分类问题是机器学习的主要研究内容,支持向量机(Support Vector Machine,SVM)作为主流的分类方法之一,在软件模块缺陷检测、图像识别等领域取得了广泛的应用,倍受研究者的关
近几年来,机器人足球系统作为人工智能和机器人学研究和应用的一个重要实验平台已经成为智能控制领域的研究热点之一.通过提供一个标准任务,使得研究人员利用各种技术,获得更
Ad hoc网络中的消息需要依靠中间节点进行转发,由于节点的资源有限,节点可能为了节省资源不愿为其他节点转发消息,这样的节点称为自私节点。自私节点的存在将极大影响网络的性能
随着分布式交互仿真技术的发展和系统规模的增大,仿真系统的负载平衡问题显得越来越重要。在以往基于HLA(High Level Architecture)的分布式仿真系统中,只是根据物理模型或数学