论文部分内容阅读
随着经济社会和电信行业的发展,我们在享受着电信事业迅速发展带来的便利服务时,电信行业中的诈骗行为也随之增多,造成的损失也越来越大。电信诈骗不仅给居民带来了难以承受的经济损失,同时也抹黑了电信运营商的企业形象,进而引发了一系列了社会问题,严重影响居民的幸福生活,扰动社会的和谐。面对诈骗行为的增多与其带来的损失,电信营运商必须投入人力、物力去抑制诈骗行为的出现。所以,本文中的研究是基于技术层面上如何对疑似诈骗的用户进行精准的预测和分类。本文主要研究电信诈骗中的电话诈骗的防治问题,即如何对用户进行精准的分类和预测,如何精准的识别诈骗用户电话号码。本文在充分调研和结合业内人员经验的基础上,首先进行前期数据准备工作,包括正样本过采样、指标选取、和指标分段处理。其次对属性变量进行了探索性分析,进行了是否诈骗和年龄、性别、通话时长、主叫次数和入网时长等多个指标的分组的列联表卡方检验,得到了不同的指标与是否诈骗的显著性检验的结果。最后依据探索性分析的结果进一步筛选属性变量,最后采用决策树的CHAID的算法建立电信诈骗决策树分类模型。通过对不同深度和决策树的分类模型进行了效度检验、预测准确率和召回率进行讨论,得到了相对较优的决策树模型。通过分类的结果发现,通话频率对是否诈骗的影响最为显著,入网时长和套餐挡位等属性都对是否诈骗影响显著。并根据决策树模型得到的结果汇总了诈骗用户的分类规则,并且结合实际情况,给出了运营商关于电话诈骗的防治建议。