大数据技术在跨境电商平台选品分析的应用大数据技术在跨境电商平台选品分析的应用

来源 :少年科普报（科教论坛） | 被引量 : 0次 | 上传用户：idlerman

【摘要】

：

摘要：电商是新时代互联网经济高速发展的标志性产物，近些年电商蓬勃发展，大批年轻从业者投入到电商行业，竞争也随之而来。受疫情影响，海外消费者出行的不便使线上购买量剧增，也给了国内跨境电商一个契机。现如今大数据技术已经应用到生产生活的方方面面，本文以跨境垂类平台Wayfair为例，采用Python的数据挖掘和可视化技术，构建“爬虫+持久化存储+可视化”一体式系统，将海量商品数据信息特点用大数据技术进行挖掘，并以最直观的方式展示，解决跨境电商从业者在选品过程中遇到的难题与瓶颈，为电商从业者在选品上提供参考。关键

【作者】

：

张爽?赖晓橦

【出处】

：

少年科普报（科教论坛）

【发表日期】

：

2021年61期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关键字：大数据;跨境电商;可视化;Python;选品

中图分类号：G4 文献标识码：A

0 引言

随着互联网的迅速发展，网上购物已经走入全球大多数人的生活。受疫情影响，海外消费者出行的不便使线上购买量剧增，也给了国内跨境电商一个契机。跨境电商销售一个重要指标就是产品，产品是核心中的核心，没有好的产品，一切都是零。一般而言，一个跨境电商店铺成功的70%的因素都在于正确的选品[1]。但在选品过程中，发现存在许多问题，如商品同质化严重，缺乏特色;选品无法因地制宜，满足国外消费群体的偏好等。大数据技术主要是以数据收集、存储、分析为主，提供各式各样的数据参数，方便管理者决策[2]。因此，将大数据技术应用到跨境电商的选品中，能够解决现实存在的问题，帮助电商从业者把握机遇，突破选品瓶颈，实现销量提升，利润增长。本文依靠Python大数据挖掘和可视化技术，通过构建“爬虫+持久化存储+可视化”一体化的选品分析系统的方法，解決上述发展的难点，能有效帮助电商从业者选品分析，推动收入增长，早日实现盈利目标。

1 网络爬虫获取商品信息

1.1 需求分析

电子商务所具有的开放性和全球性的特点，为企业和个人创造了更多的贸易机会，它重新定义了传统的流通模式，减少了中间环节，使得生产者和消费者的直接交易成为可能，从而在一定程度上改变了整个社会经济运行的方式。电子商务一方面破除了时空的壁垒，另一方面又提供了丰富的信息资源，为各种社会经济要素的重新组合提供了更多的可能。因此，对跨境电商平台进行分析研究，了解电商行业产品的需求特点和发展趋势，对电商从业者有着重要的意义。Wayfair是美国最大的家具网络零售商，成立于2002年，经营范围包含家居、家具、家电、家纺、装饰品、灯具、建材、户外用品等各类产品，是北美排名第一的专业家居电商销售平台。

本文以Wayfair平台中的家具—灯具品类为例，对如何使用网络爬虫技术高效地获取信息进行探讨与研究，获取数据后进行深入的分析和可视化，达到帮助电商从业者选品的目的。首先需要从商品列表页面中获取商品的标题、价格、收藏人数等信息，以及每个商品细化页面中的评分和卖家评论等。对于可见内容，通过Python中的Requests库，Urllib库或Scrapy框架进行爬取。对于使用JavaScript动态渲染的页面信息，通过抓包Ajax请求来分析需要构建的参数[3]。有时候需要一些逆向的参数，因为通过JavaScript加密生成的参数导致很难找到页面变化的规律。这时候会借助Node.js，和支持Python调用的Pyexecjs库进行JavaScript逆向解密。 Python中还有很多模拟浏览器运行的库，例如Selenium、PhantomJS、PyW8等[4]。本文采用Requests库，请求Wayfair平台接口获取数据，用于后续的数据挖掘和分析。

1.2 模块设计

首先使用Requests库请求Wayfair平台的信息后，通过Re（正则表达式）库匹配出需要的json格式的数据[5]，通过json.loads（）转化成可结构化提取的字典数据，方便进行存储。然后通过在参数中拼接页码，以达到可自动翻页提取数据的爬虫效果。由于爬虫的频繁访问会触发Wayfair平台的风控机制，为此要降低访问速度。通过建立爬虫随机休眠机制，配置相应网络代理IP，在每次请求中，通过代理IP发出请求，可以降低访问速度从而达到稳定获取数据的目的。代码设计思路如图1所示。

1.3 关键防护措施

根据上一节的介绍，由于Wayfair平台具有风控反爬机制，为了能够安全稳定的获取平台数据，在爬取的过程中建立了一系列的防护措施，其基本防护措施和核心代码如表1所示。

1.4 爬虫结果

搭建好爬虫框架后，对 Wayfair平台的商品标题、价格、评论人数、评分、评论等信息进行了数据采集，共获得8230条数据和近500M的评论内容。爬取的部分数据，如图2和图3所示。

2 文本分析

文本分析是通过数据挖掘等操作对文本进行信息获取。本研究主要提取了全部评论中的近三个月评论信息，进行文本分析和数据统计，目的是为了选出近期热度较高的商品。电商从业者能够通过该文本分析数据，并且结合评分和留评总数，预测市场发展趋势，快速获得最优的选品对象。

2.1 词频分析

Python的思维就是让编程者用尽可能少的代码来解决问题。对于词频的统计，就代码层面而言，实现的方式也有多种。在统计和数据挖掘等方面，词频统计与分析是最常使用的技术之一，它能很好的处理分类等多个方面的问题[6]。

在本研究中，使用Counter来完成词频统计。Counter的本身是一个计数器，所以它具有多种统计的方法。例如，最常见的词频统计的排序，可以获得前n个最高的词频。核心代码如下，

# 返回前n个最高词频，以字典的形式

word_counter.most_common（n）

除此之外，本研究还将获取到的商品评论信息通过基于规则和基于语义的分词方法进行分词，为后续的文本分析算法做铺垫。同时，文本数据集中还有一些复杂的文本内容、语句结构和内在的规律等信息，本文通过数据分析及可视化技术，将复杂文本信息通过图表形式表达出来。

其他文献

VR宝箱类对象打开的动画效果初探 VR宝箱类对象打开的动画效果初探

摘要：随着社会的发展，VR虚拟技术的应用在市场和生活中得到不断应用，大多使用unity软件来编写VR程序， VR许多特效都可以使用动画机来实现复杂的特效，Unity 动画系统采用状态机，将每一个动画视为一个状态，根据用户的输入来改变状态机中的条件，利用该特定的条件来控制状态的切换，從而实现动画的改变，本文借宝箱动画的特效来讲述动画效果的使用。关键字：VR;UNIYT;动画中图分类号：G4 文献标识码：A一、场景布置1.打开Unity软件，在Project下新建一个Scene，命名为：AniChest。

期刊

竞技体育运动员退役安置问题思考竞技体育运动员退役安置问题思考

摘要：为缓解竞技体育运动员退役安置问题，本文采用文献资料法、逻辑分析法、调查问卷法、访谈法，对竞技体育退役员的社会融入情况、社会医疗保障体系、就业渠道等方面问题进行分析，提出了完善社会保障体系，加强退役运动员社会融入度;完善医疗社会保障制度;重视“體教融合”退役运动员从事体育公共服务的路径;完善社会体育指导员的培养机制的建议，对竞技运动员退役安置问题有一定的借鉴作用。关键词：竞技运动员;退役;安置问题中图分类号：G4 文献标识码：A一、退役运动员出现的主要问题（一）社会的保障制度不健全，社会融入低退役

期刊

三教改革环境下电子商务课程教学方法研究三教改革环境下电子商务课程教学方法研究

摘要：近年来，为了能够充分提升职业学校的教学效率，我国相关部门出台了三教改革政策。在这一全新的政策背景下，电子商务课程教学也面临着改革的需求。本文基于对三教改革的政策内涵和教学影响分析，探究电子商务课程教学的方法、策略。关键词：电子商务课程教学;三教改革;策略中图分类号：G4 文献标识码：A在当前的社会发展背景之下，电子商务已经开始渗透进人们生活的方方面面。尤其是受“互联网+”理念的影响，我国的企业在发展过程中也积极开始转型，借助于电子商务的力量，很多企业实现了跨越式的发展。但是也应该认识到的是，电子

期刊

小学数学解决问题的方法和策略小学数学解决问题的方法和策略

摘要：在小学数学教育水平上，学生的问题解决的能力是评价数学教育质量的重要指标。数学问题解决教学策略对提高小学数学教学质量具有重要作用。数学是小学教育体系的主要组成部分，是培养学生逻辑思维能力、提高学生综合素质的最重要途径之一。本文特此提出几点提高小学生数学解决问题能力的策略，以期给广大数学教育工作者的后期工作活动带去借鉴。关键词：小学数学;解决问题;教学策略中图分类号：G4 文献标识码：A前言在实际教学过程中，不少小学数学教师一味地采用传统的教学方法来传授数学知识，忽视小学生数学思维和理解能力的培养，

期刊

小组合作，有效提高初中数学教学效率小组合作，有效提高初中数学教学效率

摘要：小组合作指的是在教与学过程中，将学生按照一定的标准分为若干学习小组，一起展开知识的学习。目前，小组合作已经成为初中数学课堂教学的主要模式之一，教师可以根据学生的学习能力、学习基础、学习习惯等因素作为分组的标准，引导学生在合作中分析、解决数学问题。这种组织模式对初中生合作意识、探究能力、数学思维等学科关键能力和品质的培养具有重要作用。关键词：初中数学;小组合作;有效策略中图分类号：G4 文献标识码：A引言小组合作学习是一种新型的教育理念，目前我国教育领域针对小组合作学习模式的构建提出了多方面要求，

期刊

一日生活中过渡环节的优化策略研究一日生活中过渡环节的优化策略研究

摘要：在一日生活中过渡环节是及其容易忽视的环节，为了将过渡环节进行有效利用，所以我们进行了此课题的研究，将过渡环节进行优化，真正做到陶行知先生说的“一日活动皆课程”。关键词：优化过渡环节;长时过渡;短时过渡中图分类号：G4 文献标识码：A陶行知先生是我国近代著名的教育思想家和实践家，针对于陶行知先生提出的“一日活动皆课程”理念，我们想到了过渡环节，一个很容易被忽视的环节，在平时的一日活动中过渡环节由于等待时间较长、比较容易被人忽视的，所以针对这一问题，我们提出了《一日活动中过渡环节的优化策略研究》，同

期刊

英语小诗和童谣在小学英语课堂教学中的运用英语小诗和童谣在小学英语课堂教学中的运用

摘要：在小学英语课堂上，为全面提升课堂教学水平，吸引学生的共鸣与理解，通过小诗与童谣的形式作为教学辅助手段可以有效提升英语课堂教学效果。在实际教学过程中，由于课时限制，大部分教师会忽略小诗与童谣的教学，导致其无法起到提升小学英语课堂教学效果的目的。本文针对小学阶段英语教学中小诗与童谣的教学情况进行讨论，提出小学阶段小诗和童谣教学的具体应用措施，旨在为全面提升小学英语课堂教学水平提供参考性意见。关键词：小诗和童谣;小学英语;课堂教学中图分类号：G4 文献标识码：A前言英语小诗和童谣是一种具有互动性的英语

期刊

白楠专栏（筹）：兼评王侯琛、王诗雨、魏馨泽新作白楠专栏（筹）：兼评王侯琛、王诗雨、魏馨泽新作

摘要：白楠的《苦与甜》，指导教师是康靖老师。王侯琛、王诗雨、魏馨泽的新作，都是为落实贾勇教授“读写一体化”理念而作。贾教授是陕西教育厅评定的《大学语文》等省级优秀教材主编，曾在赛教中连续三年夺冠;主持的福特基金资助项目《部分学生厌读怕写的原因与对策研究》，被北京大学、美国马里兰大学评为优秀课题;多次应邀为全国语文教师在线讲座，两度荣获教育部颁发创新成就奖。他的学生们、包括西安高新一小五年级学生王侯琛等，都曾很多次发表期刊文章。关键词：王侯琛;王诗雨;魏馨泽;康靖;贾勇中图分类号：G4 文献标识码：A白

期刊

英语纠错本在小学高段英语教学中的运用分析英语纠错本在小学高段英语教学中的运用分析

摘要：俗话说，失败是成功之母，在开展小学高段英语教育工作时，教师应当充分重视对错误资源的有效应用，以英语纠错本为载体，让学生能够有效积累英语学习中出现的错误。英语纠错本本身是小学高段英语教学中的常用工具，在新课改背景下，教师应当充分重视对学生学习习惯的有效引导，让学生能够在成长过程中利用纠错本提高学习效率，在解决英语学习问题的同时做好自我反思。本文简单分析了英语纠错本在小学高段英语教学中的运用价值，结合高年级学生英语学习特点，提出了英语纠错本在小学高段英语教学中的有效运用策略。关键词：纠错本;小学英语;运

期刊

探讨农村小学合唱教学的现状及措施探讨农村小学合唱教学的现状及措施

摘要：经济的发展促进了教育的进步，但是在农村，教育资源仍相对落后，尤其在音乐教育方面。合唱对个人的音乐水平要求不是很高，在小学生中也比较受欢迎，但是农村小学中重视程度不够、师资力量和教育资源缺乏、学生音乐方面的个人能力不同，因此，在合唱教学中，要加强对音乐教学的重视程度，加大音乐教学的投入，增强师资力量，改善教学资源，并针对学生不同情况，提高学生学习合唱的兴趣，必可有效促进农村小学合唱教学效果。关键词：农村小学;合唱教学;对策研究中图分类号：G4 文献标识码：A一、农村小学音乐教育的现状1、农村小学对

期刊

大数据技术在跨境电商平台选品分析的应用 大数据技术在跨境电商平台选品分析的应用

与本文相关的学术论文

大数据技术在跨境电商平台选品分析的应用大数据技术在跨境电商平台选品分析的应用