数据挖掘技术分析及其在零售行业的应用

来源 :商场现代化 | 被引量 : 0次 | 上传用户:hdw1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 数据挖掘技术逐渐成为研究热点,应用也越来越广泛。本文结合零售业中各种应用需求,较详细地分析了针对不同挖掘任务的数据挖掘技术,并对实施中出现的问题进行了阐述,表明了改进挖掘算法和提高计算效率的必要性。
  [关键词] 数据挖掘 零售业 算法
  
  一、引言
  当美国学者奈斯伯特惊呼“人类正被大量数据所淹没,而知识则极度匮乏”时,出现于20世纪80年代末的数据挖掘技术让人们看到了发现知识的希望。
  零售行业使最早利用数据挖掘技术的领域之一,随着时代的发展,传统报表系统已经不能满足日益增长的业务需求了,企业期待着更好地利用数据分析和数据挖掘这种新的技术来获得知识或洞察力,促使企业做出更有利的决策,带来更大的商业价值。这也成为企业生存发展的关键。
  二、数据挖掘概念
  1.什么是数据挖掘。数据挖掘(DM)是指从大量数据中抽取隐含的、不为人知的、有用的信息。有时也把数据挖掘等同于数据库中的知识发现(KDD)。
  从商业角度出发,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
  2.数据挖掘及知识发现处理数据的一般过程。数据清理→数据集成→数据选择→数据变换→汇总、聚集→数据挖掘→模式评估→知识表示
  三、零售业数据挖掘的主要技术分析
  数据挖掘采用的方法综合了数据库、人工智能、统计学、模式识别、机器学习、数据分析等领域的研究成果。
  1.概念/类描述:特征化和区分。对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。
  定性概念描述即数据特征化,是目标类数据的一般特性或特征的汇总。
  对比概念描述即数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类由用户指定,而对应的数据通过数据库查询检索。例如:用户可能希望将上一年销售增加10%的A产品与同一时期销售至少下降20%的B产品进行比较。再如:比较定期购买某种产品的顾客和偶尔购买这种产品的顾客。结果描述提供顾客比较的一般轮廓,如比较两类顾客的年龄,受教育程度,职业等等,还可以就某项深入比较,发现两类间更多的区分特性。
  两种描述使用的一些有:基于统计度量、图的简单数据汇总、数据立方体、面向属性的归纳等。
  2.挖掘频繁模式、关联。频繁模式是在数据中频繁出现的模式。包括项集、子序列和子结构。
  项集是指频繁地在事务数据集中一起出现的项的集合,如牛奶和面包。如顾客先购买PC再购买数码相机然后再购买内存卡这样的模式是一个(频繁)序列模式。
  子结构涉及不同的结构形式,如图、树或格,与项集或子序列结合在一起。如果一个子结构频繁地出现,则称它为(频繁)结构模式。
  挖掘频繁模式导致发现数据中有趣的关联。著名的“尿布与啤酒”的故事就是关联规则具体应用。著名的关联规则发现方法如:R.Agrawal提出的Apriori算法等。
  3.分类知识发现。所谓分类,是把给定的数据划分到一定的类别中。分类的关键是对数据按照什么标准或什么规则进行分类。
  对于分类规则的挖掘通常有以下几种方法:决策树、朴素贝叶斯、k最近邻分类、人工神经网络、粗糙集方法和遗传算法。不同的算法适用于不同特点的数据集合。最为典型的分类方法是基于决策树的分类方法。
  4.预测型知识发现。预测型知识是根據事件序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。比如,在零售业中根据先前的销售数据,预测未来销售中每种商品的收益,这是一个(数值)预测的例子。
  目前,回归分析是一种最常使用的数值预测的统计学方法,此外还有神经网络、机器学习等多种方法。
  5.聚类分析。聚类分析处理的数据是无事先确定的类别归属,是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。
  在零售业中利用聚类可以帮助市场分析人员从客户的基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。此外,聚类分析可以作为其他算法(如特征和分类等)的预处理步骤。聚类方法主要有两大类,包括统计方法和神经网络方法。
  6.离群点分析。数据集中那些不符合大多数数据对象所构成的规律(模型)的数据对象被称为异类或离群点。
  大部分数据挖掘方法很容易将离群点视为噪声或异常而丢弃。然而在某些特定应用场合(如商业欺诈行为的自动检测),小概率发生的事件(数据)比经常发生的事件(数据)更有挖掘价值。
  常使用异常探测方法来发现离群点,实现异常探测可以用基于统计、基于距离、)基于偏离的方法。
  四、结束语
  通过研究和实际应用了解到,数据挖掘并不是万能的,在通过数据挖掘得到一些有意思的结果之后,还要进行相应的市场分析,用户行为分析和用户访谈,了解数据背后消费者的心理。
  虽然数据挖掘在零售业中的应用有许多成功的案例(多数都在国外),然而在具体实施中还有一些的问题:挖掘算法的改进和计算效率提高,模型的合理性和易懂性,与其他系统的集成问题;网络与分布式环境下的KDD问题;个人隐私问题;数据规模超大或太小;另外还可能有观念意识问题,基础条件不成熟问题,这些都有待于进一步研究。
  
  参考文献:
  [01]Shortland R,Scarfe R.Digging for Gold.IEE Review.1995(5).41:213~217
  [2]范明孟小峰(译):anjiawei,etal.数据挖掘:概念与技术.北京:机械工业出版社,2007
其他文献
以石墨烯和碳纳米管为典型代表的大共轭碳材料因其独特的几何构型和电子结构,在从微观的分子器件到宏观的能源材料都有着十分广阔的应用前景。大共轭碳体系的电子输运包括碳
氧化偶氮基化合物(azoxy compounds)是一类比较少见的含有氧化偶氮基[-N=N(=O)-]的化合物,在染料、还原剂、化学稳定剂、炸药以及药物上具有悠久的应用历史。与苯环相连的氧
本文基于国内外目前比较成熟的泥石流预警预报理论,以北京市密云县石城镇示范区为例,结合北京地区开展过的区域地质灾害综合研究成果,建立了泥石流预警预报模型。
农民有迫切的贷款的需求,但是由于农民居住比较分散,可抵押物少、可贷款的额度比较少,为农民贷款成本比较高,我们从海南农信社一小通的做法上能感觉到很受鼓舞。一边是农民需求比
日前,史丹利化肥当阳有限公司与华中农业大学联合申报的《新型系列农作物专用生物缓释复肥关键技术及产业化》项目荣获2016年度湖北省科技进步二等奖。
高丽营探槽揭示的地质现象表明,黄庄一高丽营断裂错断全部第四系地层,断裂面直达地表,累计断距约1.5m左右。黄庄一高丽营断裂的地表断面位置与地裂缝完全一致,与已遣成较大损失的
多铌酸盐在近年来引起科学家们的广泛关注,主要是由于其在核废料处理和光催化分解水产氢等方面的潜在应用价值。然而,多铌酸盐不能在常规条件下经过简单处理得到,所以多铌酸