基于改进ML-KNN算法的网络零售用户细分问题研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hecheng555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络零售的不断发展,网络零售市场从卖家导向市场,正逐渐转向买家导向市场。以往网络零售商家更多地依赖价格优惠和流量红利实现销量增长和利润的增加,然而,一方面,网络零售卖家竞争加剧,吸引新顾客的成本不断上升;另一方面,消费者获取价格比对信息更加容易,更容易受到价格的优惠诱惑,也更加容易流失,留住老顾客更加困难。所以,如何对用户进行进一步的用户细分,有针对性的识别用户特征,对用户提出更加精准的营销策略,是网络零售卖家关注的一个重点。本文从某网络零售商家的实际历史订单数据出发,对10000多万条订单数据,进行了随机取样,对取样后的10万条订单数据进行标记学习。首先,通过用户是否发生了二次购买记录,从而对买家是否在该商家进行重复购买进行标记;其次,基于用户享受折扣的金额、享受折扣的次数、累计消费的金额、累计消费的次数、以及金额和次数的占比等指标,结合K-means对用户进行聚类,进而识别价格敏感用户;最后,基于文献回顾,使用经典的RFM模型,从消费者最近一次购买距今时间R,累计购买次数F,累计消费购买金额M,采用K-means聚类,对忠诚用户进行标记。在用户标记的基础上,由于三个标记之间具有一定的相关性。忠诚用户往往更容易发生二次购买,而价格敏感的用户的忠诚度会相对较低,但是价格的波动会影响二次购买的决策。所以,本文对多标记学习进行了系统的文献回顾,并对原有的多标记学习一阶算法ML-KNN算法进行了学习和应用,基于此,提出了两点改进,主要包括第一,由于实际数据往往会存在一定的类别不平衡(class imbalance),本文以标记中大类样本和小类样本的样本数据比例得到权重,从而通过对数据样本加权的方式,提高小类样本的权重,减少小类样本数据的多标记学习错误率,实现样本的均匀抽样,有效的降低类别不平衡问题。第二,由于ML-KNN算法是一阶算法,没有考虑到标记之间的相关性信息,而标记之间的相关性信息可以有效利用,从而提升学习效果,所以本文ML-KNN算法,对分类器函数进行了一定的修改。最终,将改进后的ML-KNN算法和现有多标记学习算法进行了对比,论证了改进的有效性。在结论部分,基于本文对用户的多标记学习,对网络零售卖家的营销策略提出了一些切实可行的建议,并且结合文献回顾,提出了两点不足和三点可供借鉴的未来研究方向。
其他文献
蛋白磷酸化在丝状真菌细胞对外界纤维素酶诱导信号感应以及胞内信号的传导过程中有着重要的作用。蛋白磷酸化是由蛋白激酶和磷酸化酶共同作用来完成的。为了挖掘在丝状真菌纤
封闭式光生物反应器在微藻培养当中,具有培养条件稳定,藻细胞生长速度快,培养密度大,生产周期短等优点,已成为近年来微藻研究进展最快的领域之一。但微藻细胞及其分泌物易黏
流动性是金融市场的基本属性之一。流动性又是一个复杂的概念,蕴含价格、数量、弹性和时间等多个维度的信息。因其重要性和复杂性,对流动性相关问题的研究,始终是学术界的热
光场成像作为一种新的成像技术,突破了传统二维成像的局限,能够在记录光线位置信息的同时获取光线的方向信息,这些额外信息能够使光场得到广泛的应用,例如深度估计,目标检测,光场三维渲染,三维重构等。但是由于光场相机硬件条件的限制与拍摄过程中由于环境、光线、抖动等外界因素的干扰,所获得的光场图像往往分辨率不高并有不同程度的噪声污染,很难满足实际应用的需要。本文针对这个问题,对光场图像的去噪方法和超分辨率方
目的:分析比较男性非酒精性脂肪性肝病(NAFLD)肝脏生化指标、瞬时弹性成像(Fibroscan)、人体成分的特点,结合健康问卷调查指导临床综合评估男性脂肪肝患者的病情以提供更好的个性化干预措施。方法:选取2017年8月至2019年12月于天津市第二人民医院门诊就诊,根据《非酒精性脂肪性肝病防治指南》(2018)腹部超声诊断标准诊断为NAFLD的成年男性共149例作为研究对象。所有的患者均完善包括
中国大学生电动方程式汽车大赛(Formula Student Electric China,FSEC)是纯电动汽车发展的一个缩影,旨在培养大学生实践动手能力、团队协作能力。传统的电动方程式赛车VCU硬件没有基于需求进行开发,软件采用手动编程的方式进行编写,因此硬件模块的稳定性差,除此之外整个软硬件开发周期长。本文围绕FSEC大赛规则进行整车控制器(Vehicle Control Unit,VCU)
当前,在应用薄边界层模型时,薄边界层模型也存在许多使用的局限性和不确定性,本研究根据薄边界层模型的现有研究成果,研究了薄边界层模型参数对模型估算结果的影响,以及应用
近年来,随着智能移动设备及其他无线设备的普及,基于位置的服务需求(L BS)日益增大。在室内定位领域出现了很多种解决方案,例如,使用i Beacon信标进行定位的技术、利用地磁指纹进行定位的技术、利用深度学习进行定位的技术等。其中,利用i Beacon信标的定位技术具有定位稳定、准确性高的优点,但需要部署大量硬件设备;基于地磁指纹的定位技术具有指纹稳定性高、定位准确的优点,但容易受到强磁场干扰、定
随着化石能源的逐渐枯竭与环境污染的加剧,风力发电已成为新能源发电的主要代表。其中双馈风电机组以其优秀的特性,已成为国内的主流风电机组。现在国内风电装机容量在整个系统中的比例已不可忽视,风电机组与电力系统会产生极大的相互影响。我国风场一般聚集在西部及海上,距离主要的用电地区较远,采用直流输电系统已经成为大规模风电送出的主要方式。当直流输电系统发生故障时将会对风电机组产生电压与谐波的影响,为避免情况恶
随着化石燃料燃烧引起的环境污染问题日益严重,以光伏发电为代表的清洁能源发电形式受到广泛关注。但是,光伏出力的随机性、波动性对电力系统调度可靠性提出了要求。将碳交易机制引入电力系统运行与调度可以使得系统的运行更加低碳环保、经济合理。本文针对含光伏发电的电力系统调度策略及其评价问题展开了研究。首先,本文对碳配额交易市场的发展及其与电力行业的关系、光伏发电与电力调度、综合评价方法、光伏出力特性等方面内容