面向不均衡分类大数据的用户流失预测研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:joyuan100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学技术的高速发展,人们获取信息的通道变得更加广泛与便捷,用户对市场上的产品或服务的选择掌握了很多的主动权,导致许多企业都面临着用户流失的风险。在互联网、大数据技术还未普及的时期,企业构建用户流失预测模型所使用的数据维度低、结构简单,使用单一简单的模型都能取得不错的预估效果。而对于现在的依托于互联网的在线平台,用户流失预测模型构建的难点主要集中在用户数据维度高、结构复杂、噪声样本多且流失用户与未流失用户数量差距悬殊。本文基于某在线平台大量用户真实的数据,通过数据可视化的方式发掘影响用户流失的因素,再进行数据清洗、特征构建和嵌入式特征筛选构建用户流失预测模型训练的数据集。针对用户流失数据不均衡问题,从数据重采样和集成学习分类算法两个角度出发。在数据重采样层面,用Logistic算法和轻型梯度提升算法作为分类器,对比常用的重采样算法对用户数据不均衡问题的影响,其中本文采用对比的重采样算法包括少数类样本合成过采样技术、边界少数类样本合成过采样技术、自适应合成抽样算法、编辑最近邻欠采样算法、汤姆克链接样本对、少类样本合成过采样技术与编辑最近邻欠采样混合的采样算法以及少类样本合成过采样技术与汤姆克链接样本对混合的采样算法,最终选择对分类效果提升最好的编辑最近邻欠采样算法。在集成学习层面,使用随机森林、自适应提升算法、轻型梯度提升算法以及极端梯度提升算法建立用户预测模型,集成学习算法相较于传统的Logistic算法在不均衡数据集上的预测效果更好。基于数据重采样和集成学习两个层面的考量,本文最终使用将编辑最近邻欠采样融入学习法策略的初级强学习器,经过学习法策略结合的模型来建立用户流失预测模型,最终的用户流失预测模型F1-score达到0.8172,AUC达到0.9197,相较于单一的Logistic模型在F1-socre和AUC指标上分别提升了0.2833、0.1118。
其他文献
随着城市化进程逐步加快,各种建筑物被拆除,产生大量的废弃混凝土,对生态环境影响巨大,天然砂石开采过度也导致建筑材料的短缺,在双层压力的迫使下,再生混凝土的循环利用,已然成为当下众多学者研究的热点方向。自密实混凝土具有低水胶比、高流动性、低工程造价、高生产效率等特点,将再生混凝土与自密实混凝土二者的特点相结合,配置出一种新型绿色混凝土一自密实再生混凝土,符合国家的可持续发展战略。由于再生粗骨料孔隙多
大量研究表明,对于多煤层开采,应优先开采上保护层。但是实际开采过程中,上覆煤层由于断层、煤厚变化、开采布局等因素的影响留有部分煤柱,而该煤柱的留设往往会使之成为应力集中区域,增加下部煤层的冲击危险性,影响煤矿安全生产。徐庄煤矿8332工作面上方为7235、7332采空区及其之间的遗留煤柱,受7235、7332采空区的影响,遗留煤柱内静载应力较高,加之工作面采动的影响,易诱发冲击矿压。因此,本论文以
HOX基因家族是同源异形盒基因的重要组成部分,能够编码转录调控因子,广泛参与调控个体的生长发育,细胞的增殖、分化、凋亡等多个过程,而且与人类多种肿瘤的发生、发展有关。H
近年来,随着我国经济社会的进一步发展,交通网络延申至海域的情况越来越常见,采用盾构法修建跨海域交通隧道的案例也逐渐增多。由于海域环境复杂多变以及海水的腐蚀作用等因素的影响,在海域环境中修建盾构隧道将面临更多的挑战。同步注浆作为盾构隧道施工中的一个重要的组成部分,原本在陆域淡水环境使用的注浆材料,在面临海水环境时,其物理力学性质也会有所改变,而且同步注浆所处环境的水压一般也比较高,当前盾构隧道同步注
近年来,随着我国老龄化程度的不断加剧和养老消费观念的升级转变,养老服务需求快速增长,为养老机构的发展提供了巨大的市场机遇,养老综合体便应运而生。但由于养老综合体项目投入资金规模大,投资回收周期长的特征,使其面临融资制约的问题,阻碍了养老综合体项目发展的规模与速度。有鉴于此,本文提出通过引入房地产投资信托基金(Real Estate Investment Trust,下文简称REITs表示)来解决养
随着化石能源的耗竭,能源危机成为限制人类发展的严峻问题。太阳能电池可直接将太阳能转换为电能,有望彻底解决这一问题。然而,太阳能电池只能吸收可见光波段的光,而能量占比接近50%的红外光则无法被利用。由基质材料和掺杂的稀土元素组成的上转换发光材料应用在太阳能电池领域可以实现红外光区的吸收,进而大幅提高太阳能电池的光电转化效率。作为目前最有效的基质材料,六方相β-NaYF4已经广泛应用在实验中,稀土掺杂
黄土高原-青藏高原过渡带长期以来被认为是世界生态环境最脆弱、变化最剧烈的区域。三北防护林、退耕还林等国家重点林业生态工程的相继实施,显著的增加了森林覆盖率,改善了
本文以来源于鳞翅目凤蝶科(Papilionidae)的柑橘凤蝶Papilio xuthus新孵幼虫细胞系RIRI-PX1作为试验材料,采用半固体显微操作法对其进行单细胞克隆,并测定克隆株外源基因表达
能源危机和环境问题是决定人类可持续发展的重要挑战,利用光催化技术开发清洁能源是解决这些问题的重要方案。利用太阳能将地球丰富的H2O和N2转化为O2,H2和NH3,可以将太阳能转化为人类所需要的清洁能源和生产生活必需品。在光催化技术中,半导体光催化剂由于其特殊的性质一直被广泛研究,可以在光催化技术中发挥至关重要的作用。但是可见光利用率低、光生电子和空穴的快速重组以及不利的反向反应等因素影响半导体材料
大庆油田杏北X区块目前已进入高含水期,一类、二类油层水淹程度高,但三类油层的表外储层中还有较大的油气储量未得到有效动用。因此,加强对表外储层动用特征的研究,可为油田精准高效挖潜及剩余储量经济有效动用提供理论基础和实践依据。本文以大庆油田杏北X区萨尔图油层II油组(以下简称SII油组)为例,以高分辨率层序地层学、精细沉积学理论为指导,运用河流三角洲地层精细对比技术对SII油组进行沉积时间单元划分与对