关联规则改进及其在网络日志挖掘中的应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xuxiyao4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Apriori算法是数据挖掘中最普遍的关联规则挖掘算法。但是在大型数据库或低阈值的挖掘中则会相当耗费时间,因为Apriori算法在数据挖掘的过程中有两个效率上的缺点,其中一个是需要多次扫描数据库,另外一个是产生过多的侯选项集,所以有不少学者从这两个缺点改善,提出有效的新算法,希望能提升数据挖掘的速度。 本文针对在大型数据库中挖掘的效率问题提出了一个新算法HEA(High EfficientAlgorithm),只需要扫描一次数据库。HEA可以通过群聚技术不需要计算项集的实际出现次数,即可判断是否为频繁项集,从而减少侯选项集的产生。 另外近年来由于因特网的快速发展及上网人口的迅速增加,使得电子商务的应用和竞争更加激烈,所以一对一营销与网站个人化推荐系统的观念也开始风行起来。过去网络数据挖掘的研究,由于HTML文件组织松散以及所使用的标签与网页内容关联性不高,所以造成我们无法针对使用者的网页内容浏览习惯做有效率的挖掘分析。近几年,XML(Extensible Markup Language)扩展式标记语言的制订弥补了HTML的许多缺点。所以,本文尝试提出一个针对以XML网页为建构基础的数据挖掘方法,此外也提出了一个XML标识内容提取的框架,进一步通过此框架取得使用者浏览网页内容的历史数据,以协助后续的客户网页浏览习惯研究与应用可以顺利展开。 本论文提出了一个XML文件标签提取的方法。通过它,可以将使用者所浏览的网页内容信息提取出来并进行浏览行为分析。此外,还提出了一个个人化推荐的方法,借助它可以对不同的顾客给予不同的商品推荐。
其他文献
由于Web Service具有平台和语言的独立性,使得它受到广泛的应用,目前Web Service已经成为当今Web应用系统中不可缺少的重要内容之一。对于台式PC来说,目前已经有比较成熟的Web S
随着信息技术的高速发展,信息资源的规模愈发庞人,导致管理难度大大增加,因此需要采用有效的知识管理方法来处理海量信息。由于本体提供了对领域知识的共同理解,确定了该领域内共
粗糙集理论是继概率论、模糊集理论、证据理论之后的又一个处理不确定性的数学工具。知识约简算法是粗糙集理论的核心内容。寻找决策信息系统的最优约简或全部约简是NP问题,
学科分类体系可以揭示科学发展的规律,并能在一定程度上预测学科进一步发展的趋势,有助于科研管理工作者制定政策。随着科学知识迅猛增长,学科分类体系动态性日益明显。如何构建
长期以来,电信企业大量而详尽的电信业务数据只被简单的应用在各种业务系统中,而没有被更有效的开发利用。随着电信市场的竞争日趋激烈,如何利用这些数据为电信业提供决策支持服
决策树方法是数据挖掘的重要方法,通常用来形成分类器和预测模型。决策树方法包含多种不同的算法,其中ID3算法是决策树方法的典型代表,是决策树生成最常用的具体实现方法,它利用
粗糙集理论是一种新的刻画不完整性和不确定性的数学工具。知识约简是粗糙集理论研究的核心问题之一。目前,粗糙集理论正在被广泛应用于人工智能、模式识别等很多领域。本文对
随着互联网和大型局域网迅速发展,网络带宽的不断扩充,给我们带来方便的同时也导致用户数与日俱增,传统的认证管理模式已无法满足大型局域网中用户对网络安全性、高效性和低成本
机器学习已经广泛应用到实际生活的各个领域。随着互联网的高速发展,每天有数以亿级的图像被上传,下载,给计算机视觉中的图像自动分类带来巨大的挑战。当今搜索引擎耗费大量的人
星空背景的景象生成技术是实现太空目标的识别与跟踪、导弹寻的、航天器飞行场景模拟、星敏感器星图识别等技术的关键技术之一。星空背景建模技术在军事、航空航天、遥感探测