论文部分内容阅读
摘要:数据挖掘技术是近些年来发展起来的一门新技术,通过该技术,人们可以发现数据后面潜藏的有价值的信息。数据挖掘已经成为解决当前企业信息系统中所面临的“数据爆炸”状况的最有效的方法,这也为决策者进行各种商业决策提供了科学的理论支持。该文将对数据挖掘的含义与基本算法进行阐述和分析,并对数据挖掘在电子商务中的具体应用进行分析探讨。
关键词:电子商务;数据挖掘;基本算法;应用分析
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)10-2318-02
Fundamental Algorithms and Application Analysis of Data Mining in E-commerce
QIN Yan
(Sichuan Staff University of Science and Technology, Chengdu 610101, China)
Abstract: Data mining technology is developed as a new technology in recent years, through this technology, people can find the valuable information underlying the dat.Data mining has become the most effective method to solve the problem of "data explosion" status faced by current enterprises,this technology also provides a scientific theory support for various business decision making. This paper will discuss and analyze the meaning of data mining and the basic algorithm, and give further discussion to analyze the specific application of data mining in electronic commerce.
Key words: electronic commerce; data mining; basic algorithms; application analysis
近些年来,基于电子计算机性能的不断提高、计算成本的不断下降以及数据管理技术的成功运用,企业商务往来的电子信息化程度也越来越高。与此同时,这也造成了大量的数据积累,形成了了“数据丰富而知识贫乏”的现象,这使得信息决策者难以从海量的数据中提取出具有信息价值的知识,数据挖掘技术的运用很好的解决了这个问题。
1 数据挖掘的含义
数据挖掘(Data Mining)可以定义为从大量的、不完全的、模糊的或者是随机的实际应用数据中,提取隐含的、同时又有潜在价值的知识与信息的过程。
数据挖掘可以扩展为以下几层含义:首先,数据源必须具备包含大量的、真实的数据的特点,数据源可以是不同数据仓库或者文件等;其次,在数据挖掘中发掘出的知识要可运用并且同时容易被理解。也就说,数据挖掘的本质目的在于寻找有用的知识,但是该知识需要被人们理解和接受;最后,数据挖掘通常是针对某一特定问题而进行的分析,往往不可能发掘出通用的知识,这些知识信息一般都具有相应的针对性,只有在特写的范围中才能够应用。
广义的角度来说,在数据挖掘中的知识是指具有一定规则的模式或者概念等,而信息与数据则是知识的理论源泉。也就是说对知识的发掘就是是从数据中挖掘出相应的规则与模式的过程,故而称之为数据挖掘。在数据挖掘中,数据源可以是多样的也可以是单一的,可以是分布式形态的,也可以是结构化形态的。
2 电子商务中数据挖掘的体系结构
当前电子商务是数据挖掘技术应用比较广泛的应用,这主要是归功于电子商务能够比较容易地满足数据挖掘所必需的因素,这些因素包括丰富的数据语言、可以自动收集可靠的数据并可将数据挖掘的结果转化为商务行为。然而,要想充分发挥数据挖掘技术在电子商务应用中的效率,数据挖掘技术需要将事务处理阶段的数据转存到相应的数据仓库中,并且要与电子商务行为有机结合起来。本文将电子商务中数据挖掘的体系结构概括3个主要部分,即商务数据定义、分析处理和顾客相互作用和。流程图如图1所示。
3 电子商务中数据挖掘的基本方法
3.1 路径分析
这种方法可以被用于确定在一个Web站点中最频繁访问的路径,其它一些与之有关路径的信息也可以通过路径分析得出。比如当70%的用户端在访问/company/product2的时候,从/company开始,而后经过company/news,/company/products/company/productl;80%的访问这个站点的顾客是从/company/products而开始的;65%的客户在浏览少于4个页面后便离开了。可以知道,第1条规则在/company/roduct2页面上有具有有用的信息,但是由于客户对站点进行的是迁回绕行方式的访问,因而这个有用信息并不十分明显。第2条规则则说明了客户访问站点通常不是从主页开始的,而是由/company/products开始的,假如这个页面上包含许多产品的目录类型的信息,将是一个不错的想法。第3条规则表明客户在网站上停留的时间。进过路径分析后,发现客户在该网站上浏览情况往往不超过4个页面时,就可以将相对重要的商品信息置于这些页面中,从而可以改进页面网站的结构设计。
3.2 关联规则分析
关联分析的最终目的是挖掘隐藏在数据间的相互关系,在电子商务中进行关联规则分析也就是找到客户对网站上不同文件之间访问的相互联系。在进行Web数据挖掘后,可以构建出关联关系模型,我们可以依据该模型更好地组织站点,从而减少用户过滤信息的负担。
3.3 序列模式分析
序列模式分析的重点在于分析不同数据之间的前后或者因果关系,也就是说在时间有序的事务集合中,去发现具有关联的内部事务模式。发现序列模式有助于电子商务的组织者对客户的访问模式进行预测,从而为客户提供个性化的服务,网站的管理人员可以依据浏览模式对访问者进行分类,而在页面上只展示出对应的访问链接。当访问者浏览到某一页面的时候,管理人员可以检查他的浏览所符合的序列模式,并且在比较显眼的位置进行“访问该页面的人员一般接着访问”的若干页面。
3.4 分类分析法
分类分析法的输入集通常是一组记录集合或者几种标记,这种分析法首先为每一个记录赋予一个相应的标记,也就是按标记分类记录,而后对这些标定的记录进检查,从而描述出这些记录的特征。在电子商务中通过应用数据挖掘,可以对不同消费群体进行分类,从而便于对某一类客户进行有针对性的商务活动。
3.5 聚类分析法
聚类分析法有别于分类规则法,其输入集合一般是一组未标定的记录,这也就是说该输入记录并没有进行任何分类。这种方法的目的是依据一定的规则,对记录集合进行合理划分,并且利用显式或者隐式的方法对不同的类别进行描述。当前已开发出许多聚类分析的工具,在电子商务中,通过对具有相似浏览行为的客户进行聚类,可以使管理员更多地了解客户信息,从而为其提供更适合、更满意的服务。
4 电子商务中数据挖掘的应用分析
本文将数据挖掘在电子商务中的典型应用概括为以下几个方面:
4.1 发现潜在客户
在对Web的客户访问信息进行数据挖掘中,可以利用分类技术在Internet上发现未来潜在的客户。对于电子商务从业者来说,得到这些潜在客户一般市场策略是,首先对现已存在的访问者进行分类,通常分为3种,即:“no customer”、“visitor once”、“visitor regular”。通过Web上的分类发现,管理人员可以识别出新客户和已经分类的老客户的一些具有共性的描述,这有助于对该新客户进行正确的分类。而后,依据其分类来判断这个新客户是否属于潜在的客户群体,从而决定是否要需要将这个新客户作为未来潜在的客户来对待。在确定客户的类型以后,管理人员就可以动态展示相应的Web页面,而Web页面的具体内容主要取决于客户与销售商提供的产品以及服务之间的关联规则。
4.2 驻留客户
现代电子商务平台使得传统客户与销售商之间的空间距离已经不存在了,在网络电子平台上,每一个客户来都有选择不同销售产品的权利,如何使这些客户在销售商自己的销售站点上驻留比较长的时间、使其对该网页产品产生更火的兴趣,对每一个销售商来说都是一个挑战。为客户在相应的网站上驻留更长的时间,就需要了解客户的浏览行为,掌握客户的兴趣与不同需求所,从而对页面内容进行动态调整,以此来满足客户的需求。对客户访问信息进行数据挖掘,就可以掌握客户的浏览行为,从而获取客户的兴趣及需求。在网络电子商务平台中的一个典型的序列,就代表了客户以页面的形式在该站点上导航的行为,运用数据挖掘中的序列模式分析技术,可以知道道客户的实际需求,从而为客户提供一些特有的商品信推广信息,从而使客户能保持对访问站点的兴趣。
4.3 对站点改进的设计
网络站点上页面内容的安排与连接,就像超市物品在货架上的摆设一样,需要将支持度与信任度较高的关联物品摆放在一起,从而有助于销售。通过Web上的关联规则分析,可以针对不同的客户对站点的结构进行动态调整,并进行相应的改进设计,从而使与客户访问有关联的文件之间的连接更为直接,这也有助于客户更容易地访问到预想的页面。当电子商务网站具有这样的便利性的时候,便可以给客户留下很好的印象,这也就增加了客户下次访问的机率。
4.4 对客户进行聚类
在电子商务中,应用数据挖掘进行客户聚类是一个十分重要的内容,通过对具有相似浏览行为的客户进行分组,可以分析出组中客户的共同特征与共性信息,从而可以帮电子商务的组织者更加客观地了解自己的客户,这也最后有利于组织者为客户提供更加适合、更加面向客户的服务。
5 结束语
数据挖掘尽管只有十多年的发展历史,但是在电子商务中却展示出了非常广阔的应用前景。本文比较详细地阐述了电子商务中数据挖掘的体系结构、应用方法以及比较典型的应用,期望通过本文的分析与探讨,可以为今后数据挖掘技术在电子商务中的广泛应用提供积极的借鉴参考。
参考文献:
[1] 刘惟一,李维华,岳昆.智能数据分析[M].北京:科学出版社,2009
[2] 宏志.数据库设计、应用开发和管理[M].3版.北京:清华大学出版社,2010.
[3] 方宏斌.模糊聚类及其实际应用[J].广东通信技术,2009(5).
[4] 魏丽.数据挖掘中聚类算法比较研究[J].电脑知识与技术,2009(6).
[5] 刘敏娟,柴玉梅.基于网格的共享近邻聚类算法[J].计算机应用,2009(7).
关键词:电子商务;数据挖掘;基本算法;应用分析
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)10-2318-02
Fundamental Algorithms and Application Analysis of Data Mining in E-commerce
QIN Yan
(Sichuan Staff University of Science and Technology, Chengdu 610101, China)
Abstract: Data mining technology is developed as a new technology in recent years, through this technology, people can find the valuable information underlying the dat.Data mining has become the most effective method to solve the problem of "data explosion" status faced by current enterprises,this technology also provides a scientific theory support for various business decision making. This paper will discuss and analyze the meaning of data mining and the basic algorithm, and give further discussion to analyze the specific application of data mining in electronic commerce.
Key words: electronic commerce; data mining; basic algorithms; application analysis
近些年来,基于电子计算机性能的不断提高、计算成本的不断下降以及数据管理技术的成功运用,企业商务往来的电子信息化程度也越来越高。与此同时,这也造成了大量的数据积累,形成了了“数据丰富而知识贫乏”的现象,这使得信息决策者难以从海量的数据中提取出具有信息价值的知识,数据挖掘技术的运用很好的解决了这个问题。
1 数据挖掘的含义
数据挖掘(Data Mining)可以定义为从大量的、不完全的、模糊的或者是随机的实际应用数据中,提取隐含的、同时又有潜在价值的知识与信息的过程。
数据挖掘可以扩展为以下几层含义:首先,数据源必须具备包含大量的、真实的数据的特点,数据源可以是不同数据仓库或者文件等;其次,在数据挖掘中发掘出的知识要可运用并且同时容易被理解。也就说,数据挖掘的本质目的在于寻找有用的知识,但是该知识需要被人们理解和接受;最后,数据挖掘通常是针对某一特定问题而进行的分析,往往不可能发掘出通用的知识,这些知识信息一般都具有相应的针对性,只有在特写的范围中才能够应用。
广义的角度来说,在数据挖掘中的知识是指具有一定规则的模式或者概念等,而信息与数据则是知识的理论源泉。也就是说对知识的发掘就是是从数据中挖掘出相应的规则与模式的过程,故而称之为数据挖掘。在数据挖掘中,数据源可以是多样的也可以是单一的,可以是分布式形态的,也可以是结构化形态的。
2 电子商务中数据挖掘的体系结构
当前电子商务是数据挖掘技术应用比较广泛的应用,这主要是归功于电子商务能够比较容易地满足数据挖掘所必需的因素,这些因素包括丰富的数据语言、可以自动收集可靠的数据并可将数据挖掘的结果转化为商务行为。然而,要想充分发挥数据挖掘技术在电子商务应用中的效率,数据挖掘技术需要将事务处理阶段的数据转存到相应的数据仓库中,并且要与电子商务行为有机结合起来。本文将电子商务中数据挖掘的体系结构概括3个主要部分,即商务数据定义、分析处理和顾客相互作用和。流程图如图1所示。
3 电子商务中数据挖掘的基本方法
3.1 路径分析
这种方法可以被用于确定在一个Web站点中最频繁访问的路径,其它一些与之有关路径的信息也可以通过路径分析得出。比如当70%的用户端在访问/company/product2的时候,从/company开始,而后经过company/news,/company/products/company/productl;80%的访问这个站点的顾客是从/company/products而开始的;65%的客户在浏览少于4个页面后便离开了。可以知道,第1条规则在/company/roduct2页面上有具有有用的信息,但是由于客户对站点进行的是迁回绕行方式的访问,因而这个有用信息并不十分明显。第2条规则则说明了客户访问站点通常不是从主页开始的,而是由/company/products开始的,假如这个页面上包含许多产品的目录类型的信息,将是一个不错的想法。第3条规则表明客户在网站上停留的时间。进过路径分析后,发现客户在该网站上浏览情况往往不超过4个页面时,就可以将相对重要的商品信息置于这些页面中,从而可以改进页面网站的结构设计。
3.2 关联规则分析
关联分析的最终目的是挖掘隐藏在数据间的相互关系,在电子商务中进行关联规则分析也就是找到客户对网站上不同文件之间访问的相互联系。在进行Web数据挖掘后,可以构建出关联关系模型,我们可以依据该模型更好地组织站点,从而减少用户过滤信息的负担。
3.3 序列模式分析
序列模式分析的重点在于分析不同数据之间的前后或者因果关系,也就是说在时间有序的事务集合中,去发现具有关联的内部事务模式。发现序列模式有助于电子商务的组织者对客户的访问模式进行预测,从而为客户提供个性化的服务,网站的管理人员可以依据浏览模式对访问者进行分类,而在页面上只展示出对应的访问链接。当访问者浏览到某一页面的时候,管理人员可以检查他的浏览所符合的序列模式,并且在比较显眼的位置进行“访问该页面的人员一般接着访问”的若干页面。
3.4 分类分析法
分类分析法的输入集通常是一组记录集合或者几种标记,这种分析法首先为每一个记录赋予一个相应的标记,也就是按标记分类记录,而后对这些标定的记录进检查,从而描述出这些记录的特征。在电子商务中通过应用数据挖掘,可以对不同消费群体进行分类,从而便于对某一类客户进行有针对性的商务活动。
3.5 聚类分析法
聚类分析法有别于分类规则法,其输入集合一般是一组未标定的记录,这也就是说该输入记录并没有进行任何分类。这种方法的目的是依据一定的规则,对记录集合进行合理划分,并且利用显式或者隐式的方法对不同的类别进行描述。当前已开发出许多聚类分析的工具,在电子商务中,通过对具有相似浏览行为的客户进行聚类,可以使管理员更多地了解客户信息,从而为其提供更适合、更满意的服务。
4 电子商务中数据挖掘的应用分析
本文将数据挖掘在电子商务中的典型应用概括为以下几个方面:
4.1 发现潜在客户
在对Web的客户访问信息进行数据挖掘中,可以利用分类技术在Internet上发现未来潜在的客户。对于电子商务从业者来说,得到这些潜在客户一般市场策略是,首先对现已存在的访问者进行分类,通常分为3种,即:“no customer”、“visitor once”、“visitor regular”。通过Web上的分类发现,管理人员可以识别出新客户和已经分类的老客户的一些具有共性的描述,这有助于对该新客户进行正确的分类。而后,依据其分类来判断这个新客户是否属于潜在的客户群体,从而决定是否要需要将这个新客户作为未来潜在的客户来对待。在确定客户的类型以后,管理人员就可以动态展示相应的Web页面,而Web页面的具体内容主要取决于客户与销售商提供的产品以及服务之间的关联规则。
4.2 驻留客户
现代电子商务平台使得传统客户与销售商之间的空间距离已经不存在了,在网络电子平台上,每一个客户来都有选择不同销售产品的权利,如何使这些客户在销售商自己的销售站点上驻留比较长的时间、使其对该网页产品产生更火的兴趣,对每一个销售商来说都是一个挑战。为客户在相应的网站上驻留更长的时间,就需要了解客户的浏览行为,掌握客户的兴趣与不同需求所,从而对页面内容进行动态调整,以此来满足客户的需求。对客户访问信息进行数据挖掘,就可以掌握客户的浏览行为,从而获取客户的兴趣及需求。在网络电子商务平台中的一个典型的序列,就代表了客户以页面的形式在该站点上导航的行为,运用数据挖掘中的序列模式分析技术,可以知道道客户的实际需求,从而为客户提供一些特有的商品信推广信息,从而使客户能保持对访问站点的兴趣。
4.3 对站点改进的设计
网络站点上页面内容的安排与连接,就像超市物品在货架上的摆设一样,需要将支持度与信任度较高的关联物品摆放在一起,从而有助于销售。通过Web上的关联规则分析,可以针对不同的客户对站点的结构进行动态调整,并进行相应的改进设计,从而使与客户访问有关联的文件之间的连接更为直接,这也有助于客户更容易地访问到预想的页面。当电子商务网站具有这样的便利性的时候,便可以给客户留下很好的印象,这也就增加了客户下次访问的机率。
4.4 对客户进行聚类
在电子商务中,应用数据挖掘进行客户聚类是一个十分重要的内容,通过对具有相似浏览行为的客户进行分组,可以分析出组中客户的共同特征与共性信息,从而可以帮电子商务的组织者更加客观地了解自己的客户,这也最后有利于组织者为客户提供更加适合、更加面向客户的服务。
5 结束语
数据挖掘尽管只有十多年的发展历史,但是在电子商务中却展示出了非常广阔的应用前景。本文比较详细地阐述了电子商务中数据挖掘的体系结构、应用方法以及比较典型的应用,期望通过本文的分析与探讨,可以为今后数据挖掘技术在电子商务中的广泛应用提供积极的借鉴参考。
参考文献:
[1] 刘惟一,李维华,岳昆.智能数据分析[M].北京:科学出版社,2009
[2] 宏志.数据库设计、应用开发和管理[M].3版.北京:清华大学出版社,2010.
[3] 方宏斌.模糊聚类及其实际应用[J].广东通信技术,2009(5).
[4] 魏丽.数据挖掘中聚类算法比较研究[J].电脑知识与技术,2009(6).
[5] 刘敏娟,柴玉梅.基于网格的共享近邻聚类算法[J].计算机应用,2009(7).