关联规则改进及其在网络日志挖掘中的应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户：xuxiyao4444

【摘要】

：

Apriori算法是数据挖掘中最普遍的关联规则挖掘算法。但是在大型数据库或低阈值的挖掘中则会相当耗费时间，因为Apriori算法在数据挖掘的过程中有两个效率上的缺点，其中一个是需

【作者】

：

常睿

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2007年期

【关键词】

：

HEA算法数据挖掘关联规则网络日志 WEB挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Apriori算法是数据挖掘中最普遍的关联规则挖掘算法。但是在大型数据库或低阈值的挖掘中则会相当耗费时间，因为Apriori算法在数据挖掘的过程中有两个效率上的缺点，其中一个是需要多次扫描数据库，另外一个是产生过多的侯选项集，所以有不少学者从这两个缺点改善，提出有效的新算法，希望能提升数据挖掘的速度。本文针对在大型数据库中挖掘的效率问题提出了一个新算法HEA(High EfficientAlgorithm)，只需要扫描一次数据库。HEA可以通过群聚技术不需要计算项集的实际出现次数，即可判断是否为频繁项集，从而减少侯选项集的产生。另外近年来由于因特网的快速发展及上网人口的迅速增加，使得电子商务的应用和竞争更加激烈，所以一对一营销与网站个人化推荐系统的观念也开始风行起来。过去网络数据挖掘的研究，由于HTML文件组织松散以及所使用的标签与网页内容关联性不高，所以造成我们无法针对使用者的网页内容浏览习惯做有效率的挖掘分析。近几年，XML(Extensible Markup Language)扩展式标记语言的制订弥补了HTML的许多缺点。所以，本文尝试提出一个针对以XML网页为建构基础的数据挖掘方法，此外也提出了一个XML标识内容提取的框架，进一步通过此框架取得使用者浏览网页内容的历史数据，以协助后续的客户网页浏览习惯研究与应用可以顺利展开。本论文提出了一个XML文件标签提取的方法。通过它，可以将使用者所浏览的网页内容信息提取出来并进行浏览行为分析。此外，还提出了一个个人化推荐的方法，借助它可以对不同的顾客给予不同的商品推荐。

其他文献

基于Agent的Web Service访问中间件在移动设备中的应用

由于Web Service具有平台和语言的独立性，使得它受到广泛的应用，目前Web Service已经成为当今Web应用系统中不可缺少的重要内容之一。对于台式PC来说，目前已经有比较成熟的Web S

学位

Java手机智能体Servlet中间件Web Service

面向本体学习的动态语料库构建方法

随着信息技术的高速发展，信息资源的规模愈发庞人，导致管理难度大大增加，因此需要采用有效的知识管理方法来处理海量信息。由于本体提供了对领域知识的共同理解，确定了该领域内共

学位

语料库本体技术爬虫系统网页特征向量ReleRank算法

基于粗糙熵的数据约简算法及应用研究

粗糙集理论是继概率论、模糊集理论、证据理论之后的又一个处理不确定性的数学工具。知识约简算法是粗糙集理论的核心内容。寻找决策信息系统的最优约简或全部约简是NP问题,

学位

粗糙集决策信息系统粗糙熵属性约简规则获取

一个基于本体演化的学科分类系统的设计与实现

学科分类体系可以揭示科学发展的规律，并能在一定程度上预测学科进一步发展的趋势，有助于科研管理工作者制定政策。随着科学知识迅猛增长，学科分类体系动态性日益明显。如何构建

学位

本体演化学科分类原型系统版本比较VlogOntoEvo框架设计

数据挖掘在电信综合业务营运系统中的应用研究

长期以来，电信企业大量而详尽的电信业务数据只被简单的应用在各种业务系统中，而没有被更有效的开发利用。随着电信市场的竞争日趋激烈，如何利用这些数据为电信业提供决策支持服

学位

数据仓库数据挖掘决策支持联机分析Apriori

基于决策树ID3算法的数据挖掘技术研究与应用

决策树方法是数据挖掘的重要方法，通常用来形成分类器和预测模型。决策树方法包含多种不同的算法，其中ID3算法是决策树方法的典型代表，是决策树生成最常用的具体实现方法，它利用

学位

数据挖掘决策树ID3算法

基于粗糙集的启发式属性约简与规则提取研究

粗糙集理论是一种新的刻画不完整性和不确定性的数学工具。知识约简是粗糙集理论研究的核心问题之一。目前，粗糙集理论正在被广泛应用于人工智能、模式识别等很多领域。本文对

学位

粗糙集属性约简规则提取决策树人工智能条件熵

基于FreeRADIUS的校园网AAA系统研究与实现

随着互联网和大型局域网迅速发展，网络带宽的不断扩充，给我们带来方便的同时也导致用户数与日俱增，传统的认证管理模式已无法满足大型局域网中用户对网络安全性、高效性和低成本

学位

服务器通知消息校园网认证管理

融入直方图相交核的局部稀疏编码图像分类算法研究

机器学习已经广泛应用到实际生活的各个领域。随着互联网的高速发展，每天有数以亿级的图像被上传，下载，给计算机视觉中的图像自动分类带来巨大的挑战。当今搜索引擎耗费大量的人

学位

计算机视觉图像分类稀疏编码局部稀疏编码直方图相交核EM算法

星空背景建模算法及其在星敏感器上的应用

星空背景的景象生成技术是实现太空目标的识别与跟踪、导弹寻的、航天器飞行场景模拟、星敏感器星图识别等技术的关键技术之一。星空背景建模技术在军事、航空航天、遥感探测

学位

星空背景星表数据坐标转换星敏感器星图识别

关联规则改进及其在网络日志挖掘中的应用

其他学术论文