Web使用挖掘技术在电子商务中的应用

来源 :中国信息化·学术版 | 被引量 : 0次 | 上传用户:moovent_chrisx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】网络的高速发展下,使得电子商务的传播和应用也更为广泛,客户和商家在挖掘技术的要求上也就有了更多的标准。现今,种类繁多又别具风格的动态结构站点已逐步替代了Web页面的静态结构。本文就电子商务如何在Web挖掘技术上的有效应用,做出相关论述。
  【关键词】Web数据挖掘 电子商务 应用
  【中图分类号】TP311 【文献标识码】A 【文章编号】1672-5158(2012)11-0065-01
  随着电子商务的经济环境不断的发展和改善,企业的销售也开始向全球化进行发展,不再是以往只在本地某一区域内局限性较大的传统销售方式,它的整个销售过程借助网络得以实现。这就使得电子商务的关键在于如何对网站的进行有效利用。企业的发展状况取决于网站对广大用户是否做到了有效的吸引。企业的决策者为使企业能够提升自身的竞争力,扩大发展规模,在信息化网站上不断做出个性化和极具创意的版面和内容,以期能将更多的客户吸引,这当中,企业尤为注重的当属个性化的发展模式。怎样才能面对繁多的数据进行个性化数据的提取,是企业急需解决的问题,这时就产生了数据挖掘技术,本文现就介绍其在电子商务中的具体应用。
  一、Web数据挖掘的概念
  所谓Web数据挖掘,实在数据挖掘上的一个引申,不只是包括数据库,只要是能够在一起进行组织的任意数据集合,都可以作为数据挖掘的对象,比如万维网的信息资源。在数据挖掘技术中,Web数据挖掘作为其中一项必不可少的部分,主要是在训练样本中进行大范围收集,并有针对性的对信息资源在网络当中进行的提取。
  二、Web数据挖掘的主要类型
  Web数据挖掘任务具有多样性的特点,这取决于多样化的电子商务的Web信息。根据不同方式的Web处理对象,可以将其类型分为三种:其一是Web内容挖掘,其二是web结构挖掘,其三是Web使用模式挖掘,结构的具体分类(见图1)。
  (一)Web内容挖掘
  将所需要的数据和内容在网络中进行大量收集的过程成为Web内容挖掘,它能够分析信息间互相的联系,并把在网络数据中的无法显而易见的内容做进一步挖掘。把网络资源做形式上的划分,数据可以包括图像、音视频和文本等,所以,可以归纳为文本、多媒体挖掘这两种形式的Web内容挖掘。现在的挖掘技术虽然都还处在不断的研发与实践之中,但文本挖掘的便利性目前已经有目共睹。
  (二)Web结构挖掘
  对有实际价值含量的知识在Web页面内容上只能挖掘到一部分,页面结构中同样有着丰富的信息量。对web存在于暗处的结构模式的挖掘,正是web结构挖掘的目的所在,它主要XCWeb页面的超链接关系,以及文档的目录和内部结构进行相关挖掘,因此能归纳为超链接挖掘、内部挖掘以及URL挖掘。
  (三)web使用模式挖掘
  把Web服务器上用户进行常规访问时的历史记录做出挖掘,从而分析归纳出用户访问的内容和喜好,即为Web使用模式挖掘,它主要是从用户访问网络的行为数据上做出分析,了解用户的意图,能够在电子商务战略上提高大量的援助,挖掘模式上可分为个性化和一般访问模式挖掘两种形式。
  三、Web数据挖掘的实现过程
  Web数据挖掘的实现可分为四个方面,分别为:数据预处理、模式识别、模式分析和可视化,挖掘过程(见图2)。
  (一)数据预处理。
  数据预处理可分为数据清洗、用户识别、会话识别和路径补充:
  (1)数据清洗
  将无关于挖掘数据和数据源中多次储存的相同数据进行删减,对访问后的信息有没有完整记录做出判断,并处理用户在访问页面时出现的错误记录,是数据清洗的主要任务。用户访问网络的ID、IP地址、访问万维网页面的具体时间和方式、传输的相关数据等都记录于Web日志之中,但Web数据挖掘需要的信息只是当中的某些成分,
  (2)用户识别
  处理好数据清洗工作后,接下来的工作是用户识别。它主要通过用户的ID、注册时预留的个人资料和使用的系统终端等,来对用户做出是否是新手的判断。之后再根据用户等级的不同,把日志文件做出集中整合,使之互相分离。
  (3)会话识别
  完成了数据预处理和用户识别后,就要开始会话识别的工作。会话是同一用户进行页面持续的访问,当多个用户进行页面的访问时,便产生了会话的不同,把用户记录做独立性会话记录的划分,是会话识别的主要目的所在。
  (4)路径补充
  通过Web站点的拓扑结构,来分析页面的方法即为路径补充。当利用站点的拓扑结构,识别出本次用户请求的页面不存在超链接关系与之前请求的页面时,就能判定为不完整的路径。这是不妨将用户本次和上次访问的时间点,取其中点判定为访问补充页面的大体时间。例如,当用户访问页面x时没能够直接跳转到下级页面Y,这时用户通常情况下会使用返回上层的功能重新访问Web页,然后去做z页面的访问。因此,很有必要添加用户对w页面的访问记录,在Y页面和z页面之间。
  (二)模式识别
  数据进行完预处理工作之后,还要进一步在得到的事务数据库上做数据的挖掘工作:在形式上将要处理的数据转化成符合于挖掘技术的数据存储;数据挖掘算法的改进,做到科学、新颖、有效,使信息能更容易被理解。
  (三)模式分析
  模式分析主要是在模式上做出新颖的发现。订单数据库和Web服务器日志是模式分析的基础数据。它运用数据挖掘技术,从中获取到用户聚类的相关模式,分析用户购买过的数据库,从中发现被购买的物品间存在的关联。分析产生模式的同时还应及时对其做出更新,以使其实效性有所保障。
  (四)可视化
  是指通过图形界面的形式,运用可视化的方式将挖掘结果展示出来。挖掘的基础是被研究的业务对象,贯穿于全过程之中,更作为促使分析人员加快挖掘的进展和对挖掘结果进行检测的主要依据。另外要注意这一工作中需要很多人工的辅助。
  四、结束语
  如今,各大企业看到电子商务所具有的快速信息获取和跨地域性等优势,纷纷争相进行看展。通过Web挖掘技术的有效运用,能够将繁杂的电子商务中存在的信息变得简洁化、富有条理性,使用户获得更好的访问体验。Web数据挖掘技术在呈现突飞猛进的发展之势,具有很高的应用价值,相信会有更多的人加入到这一领域的研究当中。
其他文献
一、我国区域经济发展的现状改革开放以来,伴随着中国差别区域发展战略的实施,中国沿海地区经济持续快速增长,为中国经济整体实力的迅速提升提供重要保证。但由于受政策倾向
1997年岁末,全国有108名中青年文艺工作者荣获中国文联各文艺家协会德艺双馨中青年会员。其中既有像赵忠祥、赵安、冯巩、李金斗、刘长瑜这样具有较高知名度的艺术家;也有常
Coulomb stress changes associated with the strong earthquakes that occurred since 1904 in Sichuan and Yunnan provinces of China are investigated. The study area
我院新生儿病房自1976年9月至1977年2月选用中药煎服及熏气治疗新生儿感染性肺炎25例,其中6例在治疗2~3天后因病情无改善或加重而使用抗菌素,其余19例坚持中药熏气而治愈。此
在1995年兵库县南部地震期间,日本尼崎、高砂和南光3处钻孔场地的地表台站分别观测到了507cm/s2以上、187cm/s2和126cm/s2的水平峰值地面加速度(PGA)的强运动。利用对强弱地
目的:探讨分娩方式对乙型肝炎病毒(HBV)母婴垂直传播的影响。方法:将HBs Ag阳性孕妇及其婴儿211例,按不同分娩方式分为阴道分娩组(126例)和选择性剖宫产组(85例),两组新生儿
我感到人是多么需要理解,又是多么难以理解。没有一个文学家敢讲这句话“我把人讲清楚了。” 这是曹禺先生晚年反复讲过的话,是先生一生从事戏剧文学创作的一个总结,是一位
贺炳炎、余秋里是我军著名的独臂将军,战争年代被戏称为“一把手”将军。 贺炳炎是贺龙手下的一员骁将,1935年11月红二方面军长征前夕,他担任了红五师师长。12月,在一次与国
Objective:To observe the effect of Compound Shenhua Tablet(复方肾华片,SHT) on the sodiumpotassium-exchanging adenosinetriphosphatase(Na~+-K~+-ATPase) in the ren
胚胎在具有容受性的内膜中充分植入是成功妊娠的前提,胚胎植入是一个受到精确调控的生理过程,可概括为胚胎的定位、黏附和侵入3个阶段。血管新生贯穿于子宫内膜周期性变化和胚胎植入过程,并为胚胎的发育提供了重要的物质基础。本文就血管内皮生长因子(VEGF)、成纤维细胞生长因子(FGF)、转化生长因子(TGF)、血管生成素(Ang)、整合素(integrin)等血管新生相关因子,在胚胎植入前内膜准备和胚胎植入