论文部分内容阅读
21世纪,是大数据的时代,机器学习和数据挖掘广泛应用在零售、医疗以及交通等众多领域。随着Hadoop和Spark等大数据存储平台的逐渐成熟,各零售企业的业务数据及客户数据的存储已不成问题,如何分析和挖掘这些数据,使其转化成有价值能为公司带来收益的信息,对各个企业来说都是一个挑战。在“新零售”的环境下,各零售企业之间的竞争转为数据竞争,转为技术竞争。大数据及其相关技术有效推进了零售业的发展。商品销量作为零售业中重要的一环,借助于机器学习对其进行精准预测,可帮助企业在现如今多变的商业形势中打好攻坚战,提升企业的核心竞争力。直至今日,许多的小型商店的决策主,在对于商品销量依然采取的是人为观察,人为决策。对于将数据挖掘的预测方法应用在商品销量的企业,其中常用的预测方法是时间序列方法。但是该方法存在着一定的弊端,由于仅仅依赖时间特征并不会对数据进行特征提取,因此一定程度上造成数据中有大量的信息浪费,仍然有许多有价值的信息没有挖掘到。而目前在数据挖掘竞赛中非常热门的像XGBoost、LightGBM算法则能很好的解决这一问题,充分挖掘数据中潜在的有价值的信息。只有准确的销量预测才能给决策主带来更好的决策,建立和客户良好的关系,而不准确的预测会造成畅销货品断货,滞销商品堆积,导致顾客流失,不利于商店企业的发展。针对如何构建更精准的预测模型,本文将使用基于决策树的集成模型对真实的商店历史销售数据进行研究,详细的对原始数据进行可视化分析探索,充分挖掘数据中有价值的信息,建立随机森林、XGBoost、LightGBM等预测模型,分析各模型的特点,并逐一对比各单一模型的预测效果。为了使预测精度更加精准,在stacking的基础上对模型融合进行改进,经过实验验证,该方法行之有效。