论文部分内容阅读
各类生活服务类的APP部分数据采集经常使用数据众包的形式,目前市场上活跃的这类APP有企鹅汇图,美团拍店等。当前有很多用户通过各种各样的手段作弊,从平台骗取酬金,给这类采集模式的运营带来很大挑战。本课题来源于某众包数据采集类APP的反作弊部门,针对这类采集模式面临作弊成本低和审核成本高的问题,从加大打击用户作弊力度的需求出发,建立了基于用户行为特征的反作弊模型。论文的主要工作如下:1.基于当前已发现作弊用户的行为特征,建立了作弊用户识别模型来自动的挖掘这类作弊用户。同时根据先验知识,建立基于聚类分析的监控预警模型,模型能将一些异常用户群体区分出来并反馈给审核部门。作弊用户识别模型和监控预警模型共同构成了反作弊系统。2.在作弊用户识别模型中,本课题根据已回收的用户相关数据,建立了基于单用户行为特征维度的分类模型。由于历史数据积累过少,样本中作弊用户数目较少,针对样本中类别不平衡问题,文中对作弊用户的样本过采样来增加样本的平衡性。针对基于朴素随机过采样的方法得到的样本上训练的模型容易造成模型泛化能力下降的问题,文中分别提出了基于SMOTE算法过采样的方法和基于ADASYN算法的过采样方法来重新构造样本。通过对这两种方法对样本过采样后得到的模型相关评价指标进行对比,最终选择了基于SMOTE算法的过采样方法。3.在作弊用户识别模型中,针对在不平衡的样本上传统的分类算法的分类效果较差的问题,文中引用了对不平衡的样本分类效果较好的CART和随机森林算法来做模型训练。分别得到了基于CART和随机森林算法的作弊用户识别模型。然后对这两种模型在测试集上的相关评价指标进行对比,选择基于随机森林算法的作弊用户识别模型。4.在监控预警模型中,根据业务相关的先验知识,选取了相应的用户行为特征,对这些行为特征做聚类分析。针对传统K-Means算法随机选取初始化质心易使模型收敛过慢或者局部收敛的问题,文中提出了基于改进K-Means算法的KMeans++算法来和基于凝聚层次聚类的算法构建监控预警系统,系统能将一些异常用户群体挖掘出来并反馈给审核部门,从而帮助审核部门发现一些新的作弊方式或者一些异常作业情况。系统可以实现对已知作弊类型的作弊用户自动识别以及对用户异常作业行为的监控和预警,从而解决了这种采集模式面临作弊成本低和审核成本高的难题。反作弊系统上线后,有效的打击了用户作弊的行为,提高了数据采集的效率,降低了运营和审核成本。