电子商务中数据挖掘的基本算法与应用分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:hace
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:数据挖掘技术是近些年来发展起来的一门新技术,通过该技术,人们可以发现数据后面潜藏的有价值的信息。数据挖掘已经成为解决当前企业信息系统中所面临的“数据爆炸”状况的最有效的方法,这也为决策者进行各种商业决策提供了科学的理论支持。该文将对数据挖掘的含义与基本算法进行阐述和分析,并对数据挖掘在电子商务中的具体应用进行分析探讨。
  关键词:电子商务;数据挖掘;基本算法;应用分析
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)10-2318-02
  Fundamental Algorithms and Application Analysis of Data Mining in E-commerce
  QIN Yan
  (Sichuan Staff University of Science and Technology, Chengdu 610101, China)
  Abstract: Data mining technology is developed as a new technology in recent years, through this technology, people can find the valuable information underlying the dat.Data mining has become the most effective method to solve the problem of "data explosion" status faced by current enterprises,this technology also provides a scientific theory support for various business decision making. This paper will discuss and analyze the meaning of data mining and the basic algorithm, and give further discussion to analyze the specific application of data mining in electronic commerce.
  Key words: electronic commerce; data mining; basic algorithms; application analysis
  近些年来,基于电子计算机性能的不断提高、计算成本的不断下降以及数据管理技术的成功运用,企业商务往来的电子信息化程度也越来越高。与此同时,这也造成了大量的数据积累,形成了了“数据丰富而知识贫乏”的现象,这使得信息决策者难以从海量的数据中提取出具有信息价值的知识,数据挖掘技术的运用很好的解决了这个问题。
  1 数据挖掘的含义
  数据挖掘(Data Mining)可以定义为从大量的、不完全的、模糊的或者是随机的实际应用数据中,提取隐含的、同时又有潜在价值的知识与信息的过程。
  数据挖掘可以扩展为以下几层含义:首先,数据源必须具备包含大量的、真实的数据的特点,数据源可以是不同数据仓库或者文件等;其次,在数据挖掘中发掘出的知识要可运用并且同时容易被理解。也就说,数据挖掘的本质目的在于寻找有用的知识,但是该知识需要被人们理解和接受;最后,数据挖掘通常是针对某一特定问题而进行的分析,往往不可能发掘出通用的知识,这些知识信息一般都具有相应的针对性,只有在特写的范围中才能够应用。
  广义的角度来说,在数据挖掘中的知识是指具有一定规则的模式或者概念等,而信息与数据则是知识的理论源泉。也就是说对知识的发掘就是是从数据中挖掘出相应的规则与模式的过程,故而称之为数据挖掘。在数据挖掘中,数据源可以是多样的也可以是单一的,可以是分布式形态的,也可以是结构化形态的。
  2 电子商务中数据挖掘的体系结构
  当前电子商务是数据挖掘技术应用比较广泛的应用,这主要是归功于电子商务能够比较容易地满足数据挖掘所必需的因素,这些因素包括丰富的数据语言、可以自动收集可靠的数据并可将数据挖掘的结果转化为商务行为。然而,要想充分发挥数据挖掘技术在电子商务应用中的效率,数据挖掘技术需要将事务处理阶段的数据转存到相应的数据仓库中,并且要与电子商务行为有机结合起来。本文将电子商务中数据挖掘的体系结构概括3个主要部分,即商务数据定义、分析处理和顾客相互作用和。流程图如图1所示。
  3 电子商务中数据挖掘的基本方法
  3.1 路径分析
  这种方法可以被用于确定在一个Web站点中最频繁访问的路径,其它一些与之有关路径的信息也可以通过路径分析得出。比如当70%的用户端在访问/company/product2的时候,从/company开始,而后经过company/news,/company/products/company/productl;80%的访问这个站点的顾客是从/company/products而开始的;65%的客户在浏览少于4个页面后便离开了。可以知道,第1条规则在/company/roduct2页面上有具有有用的信息,但是由于客户对站点进行的是迁回绕行方式的访问,因而这个有用信息并不十分明显。第2条规则则说明了客户访问站点通常不是从主页开始的,而是由/company/products开始的,假如这个页面上包含许多产品的目录类型的信息,将是一个不错的想法。第3条规则表明客户在网站上停留的时间。进过路径分析后,发现客户在该网站上浏览情况往往不超过4个页面时,就可以将相对重要的商品信息置于这些页面中,从而可以改进页面网站的结构设计。
  3.2 关联规则分析
  关联分析的最终目的是挖掘隐藏在数据间的相互关系,在电子商务中进行关联规则分析也就是找到客户对网站上不同文件之间访问的相互联系。在进行Web数据挖掘后,可以构建出关联关系模型,我们可以依据该模型更好地组织站点,从而减少用户过滤信息的负担。
  3.3 序列模式分析
  序列模式分析的重点在于分析不同数据之间的前后或者因果关系,也就是说在时间有序的事务集合中,去发现具有关联的内部事务模式。发现序列模式有助于电子商务的组织者对客户的访问模式进行预测,从而为客户提供个性化的服务,网站的管理人员可以依据浏览模式对访问者进行分类,而在页面上只展示出对应的访问链接。当访问者浏览到某一页面的时候,管理人员可以检查他的浏览所符合的序列模式,并且在比较显眼的位置进行“访问该页面的人员一般接着访问”的若干页面。
  3.4 分类分析法
  分类分析法的输入集通常是一组记录集合或者几种标记,这种分析法首先为每一个记录赋予一个相应的标记,也就是按标记分类记录,而后对这些标定的记录进检查,从而描述出这些记录的特征。在电子商务中通过应用数据挖掘,可以对不同消费群体进行分类,从而便于对某一类客户进行有针对性的商务活动。
  3.5 聚类分析法
  聚类分析法有别于分类规则法,其输入集合一般是一组未标定的记录,这也就是说该输入记录并没有进行任何分类。这种方法的目的是依据一定的规则,对记录集合进行合理划分,并且利用显式或者隐式的方法对不同的类别进行描述。当前已开发出许多聚类分析的工具,在电子商务中,通过对具有相似浏览行为的客户进行聚类,可以使管理员更多地了解客户信息,从而为其提供更适合、更满意的服务。
  4 电子商务中数据挖掘的应用分析
  本文将数据挖掘在电子商务中的典型应用概括为以下几个方面:
  4.1 发现潜在客户
  在对Web的客户访问信息进行数据挖掘中,可以利用分类技术在Internet上发现未来潜在的客户。对于电子商务从业者来说,得到这些潜在客户一般市场策略是,首先对现已存在的访问者进行分类,通常分为3种,即:“no customer”、“visitor once”、“visitor regular”。通过Web上的分类发现,管理人员可以识别出新客户和已经分类的老客户的一些具有共性的描述,这有助于对该新客户进行正确的分类。而后,依据其分类来判断这个新客户是否属于潜在的客户群体,从而决定是否要需要将这个新客户作为未来潜在的客户来对待。在确定客户的类型以后,管理人员就可以动态展示相应的Web页面,而Web页面的具体内容主要取决于客户与销售商提供的产品以及服务之间的关联规则。
  4.2 驻留客户
  现代电子商务平台使得传统客户与销售商之间的空间距离已经不存在了,在网络电子平台上,每一个客户来都有选择不同销售产品的权利,如何使这些客户在销售商自己的销售站点上驻留比较长的时间、使其对该网页产品产生更火的兴趣,对每一个销售商来说都是一个挑战。为客户在相应的网站上驻留更长的时间,就需要了解客户的浏览行为,掌握客户的兴趣与不同需求所,从而对页面内容进行动态调整,以此来满足客户的需求。对客户访问信息进行数据挖掘,就可以掌握客户的浏览行为,从而获取客户的兴趣及需求。在网络电子商务平台中的一个典型的序列,就代表了客户以页面的形式在该站点上导航的行为,运用数据挖掘中的序列模式分析技术,可以知道道客户的实际需求,从而为客户提供一些特有的商品信推广信息,从而使客户能保持对访问站点的兴趣。
  4.3 对站点改进的设计
  网络站点上页面内容的安排与连接,就像超市物品在货架上的摆设一样,需要将支持度与信任度较高的关联物品摆放在一起,从而有助于销售。通过Web上的关联规则分析,可以针对不同的客户对站点的结构进行动态调整,并进行相应的改进设计,从而使与客户访问有关联的文件之间的连接更为直接,这也有助于客户更容易地访问到预想的页面。当电子商务网站具有这样的便利性的时候,便可以给客户留下很好的印象,这也就增加了客户下次访问的机率。
  4.4 对客户进行聚类
  在电子商务中,应用数据挖掘进行客户聚类是一个十分重要的内容,通过对具有相似浏览行为的客户进行分组,可以分析出组中客户的共同特征与共性信息,从而可以帮电子商务的组织者更加客观地了解自己的客户,这也最后有利于组织者为客户提供更加适合、更加面向客户的服务。
  5 结束语
  数据挖掘尽管只有十多年的发展历史,但是在电子商务中却展示出了非常广阔的应用前景。本文比较详细地阐述了电子商务中数据挖掘的体系结构、应用方法以及比较典型的应用,期望通过本文的分析与探讨,可以为今后数据挖掘技术在电子商务中的广泛应用提供积极的借鉴参考。
  参考文献:
  [1] 刘惟一,李维华,岳昆.智能数据分析[M].北京:科学出版社,2009
  [2] 宏志.数据库设计、应用开发和管理[M].3版.北京:清华大学出版社,2010.
  [3] 方宏斌.模糊聚类及其实际应用[J].广东通信技术,2009(5).
  [4] 魏丽.数据挖掘中聚类算法比较研究[J].电脑知识与技术,2009(6).
  [5] 刘敏娟,柴玉梅.基于网格的共享近邻聚类算法[J].计算机应用,2009(7).
其他文献
安全问题是影响物联网发展的重要因素,基于3G网络的物联网具有其自身的特点,以安全风险分析为基础,构建基于3G网络的物联网安全体系结构,着重分析感知层、传输层的安全技术及实现方式,具有显著的理论及现实意义。
摘 要:大豆高产要以品种为核心,改善土壤耕作为基础,平衡施肥及加强田间管理为保证。  关键词:大豆栽培;科学管理;技术措施  我省是全国纬度最高的省份,幅员广大,农业发达,其所生产的粮食商品量与专储量都居全国第一位,是国家重要的商品粮生产基地之一。其中在大豆生产上,无论是种植面积、产量还是出口量均居全国首位。就我省的自然条件来讲,极为适合大豆的种植,只要我们把大豆生产中的各项技术环节抓上去,大豆的
目的分析拔牙导致口腔上颌窦交通(oroantral communications, OAC)的临床特点、处理方法、预后情况及预防措施。方法收集106例自2017年1月至2020年6月间在第四军医大学口腔医
目的探索绿激光前列腺剜切+粉碎术后留置F16尿管及免冲洗治疗前列腺增生的可行性和安全性。方法从2018年10月至2019年7月在本院住院的前列腺增生患者中选择了86例患者进行经尿道绿激光前列腺剜切+粉碎术,术后常规留置F16尿管并免膀胱冲洗,回顾分析了患者临床资料:手术时间、术中出血、术后住院时间、术后留置尿管时间、术后尿流率及并发症等。结果86例患者均顺利完成手术,平均手术时间40.3 min、
摘要:论文首先对网络测量技术、IPTV、NetFlow技术进行了研究,在此基础上对IPTV流媒体传输协议RTP/RTCP和实时流协议RTSP进行了详细阐述与分析,并以MDI指标参数为测试标准,设计和实现了一套监控网络中IPTV业务视频质量的系统。在多种测试环境下,结果显示系统功能能达到设计要求。  关键词:网络测量;IPTV;NetFlow;MDI指标  中图分类号:TP393文献标识码:A文章编
中国自然辩证法研究会化学化工专业委员会是经中华人民共和国民政部登记的社会团体分支机构,是中国自然辩证法研究会成立最早的专业委员会。它是对化学化工的哲学、社会学、历
根据人肥胖基因的cDNA序列,通过合理的引物设计、链延伸反应、PCR反应以及分子克隆等步骤,成功地合成出编码瘦蛋白(Leptin)的肥胖基因(oB基因)全长片段,并将其克隆至PUc18载体质粒上
【摘 要】本文根据大氮肥与小氮肥在能耗方面的问题进行原因分析,并最终提出合理的解决方案。  【关键词】大氮肥;小氮肥;比较  [Abstract] In this paper, based on large nitrogenous fertilizer with small nitrogen fertilizer in the aspect of energy consumption analys
时间与空间在西方文明的开端就与本原、存在问题关联在一起。而在亚里士多德哲学中,尽管时空仍归属于本原问题,却已经成为事物的属性;在笛卡尔开启的近代哲学中,空间(广延)甚至
介绍了门扣手暗坑形成的原因,并通过采用变薄充分,扣手周围加强压,拉伸独立凸模和后续压料板整形等工艺方法,消除暗坑缺陷,保证制件的品质,满足生产要求。