基于时序特征和集成算法的用户购买预测

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:yuezhongs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,电商平台积累了大量用户在平台上的行为数据,比如浏览、点击、下单和加入购物车等等.如何使用机器学习算法去探索大数据背后的用户消费喜好和习惯成为了一个新的研究热点.本文主要在特征工程和模型搭建两个方面对用户购买预测的效果做出提高.通过深入理解电商业务知识,利用统计学知识,分别从用户、商品和评论数据等多个方面的数据构建了115个特征;在模型搭建方面,主要设计了一个两层融合模型,第一层采用了XGBoost、CatBoost和逻辑回归作为基分类器,从不同的角度考虑用户购买预测,第二层采用加权平均的方法对基类模型的预测结果进行融合,其权重由线性分类器学习生成.实验结果表明该融合模型的F1评分要高于个体分类器,并且多次实验证明,融合模型的稳定性也要比个体分类器好.
其他文献
污染物浓度变化趋势对于环境监测工作意义重大.现今各种前馈神经网络预测模型的输出结果仅与当前输入有关,无法研究污染物数据前后依赖关系.且多种污染物具有相同排放源,污染物间往往存在潜在关联关系,一种污染物的变化可能反映另一种污染物变化,所以在预测中需考虑其他敏感参数的影响.针对上述两个问题,提出一种基于敏感参数发现的区域重点污染物浓度预测方法.应用关联规则算法及多元回归分析挖掘出各污染物的敏感参数,构建多变量LSTM预测模型,将待预测污染物及其敏感参数作为预测模型特征变量,进行污染物的浓度预测.实验结果表明本
机组排班是航空公司运营计划非常重要的一个环节,合理的机组排班可以为航空公司省下一大笔机组成本支出,从而增加航空公司的收益.由于机组排班过程涉及大量的复杂约束,属于NP难问题,因此优化求解困难.本文提出了一种基于可满足性模理论(Satisfiability Modulo Theories,SMT)的航空公司机组排班问题的优化求解方法,将机组排班过程中的各种约束转化为一阶逻辑公式,设立求解目标为最小化成本和最大化机组利用率,将问题转化为求在给定逻辑公式可满足情况下的最优解,并利用SMT求解器Z3进行求解.实验
针对含有自动引导小车(Automated Guided Vehicle,AGV)的离散化车间物流调度问题,以最小化物流任务时间惩罚成本和最小化运载小车的总行驶距离为优化目标,构建离散化车间多目标物流调度优化模型,设计一种基于Pareto寻优的多目标混合变邻域搜索遗传算法(VNSGA-II).以遗传算法为基础,通过使用NSGA-II的Pareto分层和拥挤度计算方法评估种群优劣实现多目标优化,为了提高算法的寻优能力,避免算法陷入局部最优,通过添加保优记忆库对精英个体进行保护,并利用变邻域搜索算法在搜索过程中
提出了一种新型协同进化遗传算法.该算法借鉴了协同进化的思想,对种群进行分组处理,每个组根据自己组内个体的优良情况以及个体差异情况采用不同的交叉策略和变异策略.为防止早熟,当未触发灾变条件时仅采用自适应策略动态调整变异因子;当触发灾变条件时,在采用自适应策略的基础上引入灾变机制产生部分新个体以跳出局部最优,函数优化结果表明了该算法的有效性.采用该算法求解以最小化最大完工时间为优化目标的流水车间调度问题,结果表明,该算法在收敛速度以及优化结果的准确性都优于传统的遗传算法,在求解车间调度问题方面具有良好的性能.
针对当前扩展目标跟踪量测划分方法中,距离划分存在划分数过多、计算复杂度高的问题,本文将密度峰值快速聚类算法CFSFDP (Clustering by Fast Search and Find of Density Peaks)与箱粒子势概率假设滤波器(Box Cardinalized Probability Hypothesis Density filter,Box-CPHD)相结合,提出基于CFSFDP的箱粒子CPHD扩展目标滤波算法.该算法采用CFSFDP进行量测划分,基于量测信息密度的不同可以有效划
标签传播算法是一种常用的社区发现方法,具有近似线性的时间复杂度,但该算法存在随机性和不稳定性.为了解决标签传播算法存在的准确性低和稳定性差的问题,本文提出了基于节点重要性与相似性的标签传播算法(Label Propagation Algorithm based on node Importance and Similarity,LPA IS).首先,基于节点重要性提出种子节点集和算法更新序列的获取方法.其次,利用节点重要性与相似性提出了一种计算标签综合影响力的方法,任意节点根据其邻居标签的综合影响力更新自
针对A*算法寻路时间长、生成的路径存在冗余折点的问题,本文提出一种基于车身稳态转向模型的变步长A*算法,首先通过设置子目标点的方式调节A*算法的搜索步长,减少寻路时间;其次在全局路径的折点处根据车身转向运动学约束进行局部重规划,从而得到一条易于跟踪的平滑路径;此外考虑到UGV (Unmanned Ground Vehicle,无人地面车辆)的实际宽度,改进后的算法还引入了障碍物延伸策略,使规划出的路径满足实际工程应用;最后通过仿真实验验证了本文改进算法的有效性,并与3种寻路算法进行对比,结果表明,本文改进
针对近似三角形内点测试法(Approximate Point-In-Triangulation Test,APIT)定位精度与覆盖率不足的问题,提出了一种基于APIT与遗传算法混合的无线传感器网络定位算法.该算法通过比较分割法优化APIT算法提高定位精度,并通过遗传算法提高定位覆盖率.通过仿真对比分析,该算法相较于APIT算法定位精度提高21.62%,定位覆盖率提高4.87%.
针对电信机房空调运行耗电量大,空调自动控制系统设计困难的问题,提出了一种规则约束和Dueling-DQN算法相结合的空调节能控制方法.该方法能根据不同机房环境自适应学习建模,在保证机房室内温度在规定范围的前提下,节省空调耗电量.同时针对实际机房应用场景,设计节能控制算法中的状态,动作和奖励函数,并采用深度强化学习算法Dueling-DQN提高模型表达能力和学习效率.在电信机房实际验证结果表明:该控制方法与空调默认设定参数运行相比节能18.3%,并可以很方便推广到不同环境场景的机房环境中,为电信机房节能减排
一种基于节点负载的数据动态分区系统,主要考虑节点CPU、内存、带宽负载情况,首先采用二次平滑法预测节点的负载,再结合AHP和熵值指标权重法得到每个节点的处理能力,最后针对不同应用场景动态地调整系统的负载均衡性,提高应用的响应速度;该系统主要包括负载监测采集、预测、数据预分区、数据迁移等模块.由于分布式环境存在节点资源的异构性,为了数据分析计算过程中减少节点之间数据的传输,充分利用节点计算资源,通过负载均衡性提高应用分析的并行计算速度.为此,本文提出一种基于节点负载的数据动态分区机制和策略来改善系统负载均衡