摘要:电商是新时代互联网经济高速发展的标志性产物,近些年电商蓬勃发展,大批年轻从业者投入到电商行业,竞争也随之而来。受疫情影响,海外消费者出行的不便使线上购买量剧增,也给了国内跨境电商一个契机。现如今大数据技术已经应用到生产生活的方方面面,本文以跨境垂类平台Wayfair为例,采用Python的数据挖掘和可视化技术,构建“爬虫+持久化存储+可视化”一体式系统,将海量商品数据信息特点用大数据技术进行挖掘,并以最直观的方式展示,解决跨境电商从业者在选品过程中遇到的难题与瓶颈,为电商从业者在选品上提供参考。
关键字:大数据;跨境电商;可视化;Python;选品
中图分类号:G4 文献标识码:A
0 引言
随着互联网的迅速发展,网上购物已经走入全球大多数人的生活。受疫情影响,海外消费者出行的不便使线上购买量剧增,也给了国内跨境电商一个契机。跨境电商销售一个重要指标就是产品,产品是核心中的核心,没有好的产品,一切都是零。一般而言,一个跨境电商店铺成功的70%的因素都在于正确的选品[1]。但在选品过程中,发现存在许多问题,如商品同质化严重,缺乏特色;选品无法因地制宜,满足国外消费群体的偏好等。大数据技术主要是以数据收集、存储、分析为主,提供各式各样的数据参数,方便管理者决策[2]。因此,将大数据技术应用到跨境电商的选品中,能够解决现实存在的问题,帮助电商从业者把握机遇,突破选品瓶颈,实现销量提升,利润增长。本文依靠Python大数据挖掘和可视化技术,通过构建“爬虫+持久化存储+可视化”一体化的选品分析系统的方法,解決上述发展的难点,能有效帮助电商从业者选品分析,推动收入增长,早日实现盈利目标。
1 网络爬虫获取商品信息
1.1 需求分析
电子商务所具有的开放性和全球性的特点,为企业和个人创造了更多的贸易机会,它重新定义了传统的流通模式,减少了中间环节,使得生产者和消费者的直接交易成为可能,从而在一定程度上改变了整个社会经济运行的方式。电子商务一方面破除了时空的壁垒,另一方面又提供了丰富的信息资源,为各种社会经济要素的重新组合提供了更多的可能。因此,对跨境电商平台进行分析研究,了解电商行业产品的需求特点和发展趋势,对电商从业者有着重要的意义。Wayfair是美国最大的家具网络零售商,成立于2002年,经营范围包含家居、家具、家电、家纺、装饰品、灯具、建材、户外用品等各类产品,是北美排名第一的专业家居电商销售平台。
本文以Wayfair平台中的家具—灯具品类为例,对如何使用网络爬虫技术高效地获取信息进行探讨与研究,获取数据后进行深入的分析和可视化,达到帮助电商从业者选品的目的。首先需要从商品列表页面中获取商品的标题、价格、收藏人数等信息,以及每个商品细化页面中的评分和卖家评论等。对于可见内容,通过Python中的Requests库,Urllib库或Scrapy框架进行爬取。对于使用JavaScript动态渲染的页面信息,通过抓包Ajax请求来分析需要构建的参数[3]。有时候需要一些逆向的参数,因为通过JavaScript加密生成的参数导致很难找到页面变化的规律。这时候会借助Node.js,和支持Python调用的Pyexecjs库进行JavaScript逆向解密。 Python中还有很多模拟浏览器运行的库,例如Selenium、PhantomJS、PyW8等[4]。本文采用Requests库,请求Wayfair平台接口获取数据,用于后续的数据挖掘和分析。
1.2 模块设计
首先使用Requests库请求Wayfair平台的信息后,通过Re(正则表达式)库匹配出需要的json格式的数据[5],通过json.loads()转化成可结构化提取的字典数据,方便进行存储。然后通过在参数中拼接页码,以达到可自动翻页提取数据的爬虫效果。由于爬虫的频繁访问会触发Wayfair平台的风控机制,为此要降低访问速度。通过建立爬虫随机休眠机制,配置相应网络代理IP,在每次请求中,通过代理IP发出请求,可以降低访问速度从而达到稳定获取数据的目的。代码设计思路如图1所示。
1.3 关键防护措施
根据上一节的介绍,由于Wayfair平台具有风控反爬机制,为了能够安全稳定的获取平台数据,在爬取的过程中建立了一系列的防护措施,其基本防护措施和核心代码如表1所示。
1.4 爬虫结果
搭建好爬虫框架后,对 Wayfair平台的商品标题、价格、评论人数、评分、评论等信息进行了数据采集,共获得8230条数据和近500M的评论内容。爬取的部分数据,如图2和图3所示。
2 文本分析
文本分析是通过数据挖掘等操作对文本进行信息获取。本研究主要提取了全部评论中的近三个月评论信息,进行文本分析和数据统计,目的是为了选出近期热度较高的商品。电商从业者能够通过该文本分析数据,并且结合评分和留评总数,预测市场发展趋势,快速获得最优的选品对象。
2.1 词频分析
Python的思维就是让编程者用尽可能少的代码来解决问题。对于词频的统计,就代码层面而言,实现的方式也有多种。在统计和数据挖掘等方面,词频统计与分析是最常使用的技术之一,它能很好的处理分类等多个方面的问题[6]。
在本研究中,使用Counter来完成词频统计。Counter的本身是一个计数器,所以它具有多种统计的方法。例如,最常见的词频统计的排序,可以获得前n个最高的词频。核心代码如下,
# 返回前n个最高词频,以字典的形式
word_counter.most_common(n)
除此之外,本研究还将获取到的商品评论信息通过基于规则和基于语义的分词方法进行分词,为后续的文本分析算法做铺垫。同时,文本数据集中还有一些复杂的文本内容、语句结构和内在的规律等信息,本文通过数据分析及可视化技术,将复杂文本信息通过图表形式表达出来。