论文部分内容阅读
Apriori算法是数据挖掘中最普遍的关联规则挖掘算法。但是在大型数据库或低阈值的挖掘中则会相当耗费时间,因为Apriori算法在数据挖掘的过程中有两个效率上的缺点,其中一个是需要多次扫描数据库,另外一个是产生过多的侯选项集,所以有不少学者从这两个缺点改善,提出有效的新算法,希望能提升数据挖掘的速度。
本文针对在大型数据库中挖掘的效率问题提出了一个新算法HEA(High EfficientAlgorithm),只需要扫描一次数据库。HEA可以通过群聚技术不需要计算项集的实际出现次数,即可判断是否为频繁项集,从而减少侯选项集的产生。
另外近年来由于因特网的快速发展及上网人口的迅速增加,使得电子商务的应用和竞争更加激烈,所以一对一营销与网站个人化推荐系统的观念也开始风行起来。过去网络数据挖掘的研究,由于HTML文件组织松散以及所使用的标签与网页内容关联性不高,所以造成我们无法针对使用者的网页内容浏览习惯做有效率的挖掘分析。近几年,XML(Extensible Markup Language)扩展式标记语言的制订弥补了HTML的许多缺点。所以,本文尝试提出一个针对以XML网页为建构基础的数据挖掘方法,此外也提出了一个XML标识内容提取的框架,进一步通过此框架取得使用者浏览网页内容的历史数据,以协助后续的客户网页浏览习惯研究与应用可以顺利展开。
本论文提出了一个XML文件标签提取的方法。通过它,可以将使用者所浏览的网页内容信息提取出来并进行浏览行为分析。此外,还提出了一个个人化推荐的方法,借助它可以对不同的顾客给予不同的商品推荐。