众包数据采集场景下的反作弊模型设计与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:xgw111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
各类生活服务类的APP部分数据采集经常使用数据众包的形式,目前市场上活跃的这类APP有企鹅汇图,美团拍店等。当前有很多用户通过各种各样的手段作弊,从平台骗取酬金,给这类采集模式的运营带来很大挑战。本课题来源于某众包数据采集类APP的反作弊部门,针对这类采集模式面临作弊成本低和审核成本高的问题,从加大打击用户作弊力度的需求出发,建立了基于用户行为特征的反作弊模型。论文的主要工作如下:1.基于当前已发现作弊用户的行为特征,建立了作弊用户识别模型来自动的挖掘这类作弊用户。同时根据先验知识,建立基于聚类分析的监控预警模型,模型能将一些异常用户群体区分出来并反馈给审核部门。作弊用户识别模型和监控预警模型共同构成了反作弊系统。2.在作弊用户识别模型中,本课题根据已回收的用户相关数据,建立了基于单用户行为特征维度的分类模型。由于历史数据积累过少,样本中作弊用户数目较少,针对样本中类别不平衡问题,文中对作弊用户的样本过采样来增加样本的平衡性。针对基于朴素随机过采样的方法得到的样本上训练的模型容易造成模型泛化能力下降的问题,文中分别提出了基于SMOTE算法过采样的方法和基于ADASYN算法的过采样方法来重新构造样本。通过对这两种方法对样本过采样后得到的模型相关评价指标进行对比,最终选择了基于SMOTE算法的过采样方法。3.在作弊用户识别模型中,针对在不平衡的样本上传统的分类算法的分类效果较差的问题,文中引用了对不平衡的样本分类效果较好的CART和随机森林算法来做模型训练。分别得到了基于CART和随机森林算法的作弊用户识别模型。然后对这两种模型在测试集上的相关评价指标进行对比,选择基于随机森林算法的作弊用户识别模型。4.在监控预警模型中,根据业务相关的先验知识,选取了相应的用户行为特征,对这些行为特征做聚类分析。针对传统K-Means算法随机选取初始化质心易使模型收敛过慢或者局部收敛的问题,文中提出了基于改进K-Means算法的KMeans++算法来和基于凝聚层次聚类的算法构建监控预警系统,系统能将一些异常用户群体挖掘出来并反馈给审核部门,从而帮助审核部门发现一些新的作弊方式或者一些异常作业情况。系统可以实现对已知作弊类型的作弊用户自动识别以及对用户异常作业行为的监控和预警,从而解决了这种采集模式面临作弊成本低和审核成本高的难题。反作弊系统上线后,有效的打击了用户作弊的行为,提高了数据采集的效率,降低了运营和审核成本。
其他文献
对电话会议进行了归纳分类。讨论了一种全双工预约会议。该会议采用FPGA对多方数字话音迭加分配,打破传统桥分器式系统对接口平衡阻抗的苛刻要求,彻底消除会议回声,避免会场
介绍了基于HLA的情报侦察系统仿真架构,建立了基于HLA分布式交互仿真规范的仿真模型,模型具有良好的可重用性和互操作性。在综合战场仿真环境下,能够模拟情报搜集、探测和处
质子交换膜燃料电池平行流场因其较小的压降和较多分支流道会使整个流场中的反应气体流动很不均匀,产生了较差的流动特性,也会使电池的电化学反应不够充分进而严重影响电池的输
为了使智能天线获得最大的处理增益,基于传统的on—off波束赋形算法,提出了一种新型的波束赋形算法。该算法通过利用最速下降法最大化用户数据的SINR,获得入射平面波到达各阵元
为了解决铸铁烘缸承压元件椭圆形人孔盖设计计算的困扰,设计人员基于国内规范结合ASME规范寻求一种新的设计计算方法,即利用ASME规范提供的数表找到适合于铸铁烘缸人孔盖材料
开关电源在工业控制、家用电器、仪器仪表等领域的应用非常广泛。DPA-Switch系列产品是高度集成的解决方案,适用于16-75 VDC输入的DC/DC转换器应用。单端反激DC/DC变换器具有
面向装备管理信息化建设的需要,提出一种基于Zigbee技术的轮式装备管理系统的设计方案。简要介绍了Zigbee协议栈、网络拓扑结构及其网络特性,在此基础上,给出了系统的网络组织结
针对SPRLS算法在误差较小时收敛速度慢的问题,利用误差梯度信息对自扰动项进行修正,从而提出了一种适合智能天线的改进型SPRLS算法。通过仿真试验,验证了在信道发生突变时,改进后
基于标准κ-ε湍流模型、多重参考坐标系和SIMPLE算法,采用FLUENT数值模拟软件,对3台不同比转速的熔盐泵,针对4种密度不同的介质在5种不同流量下分别进行数值模拟,预测了相应