基于电信数据的用户异常检测及行为聚类分析

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:kentxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动通信网络已成为当今社会生活中不可缺少的基础设施,电信运营商的服务器每天都会收集大量的用户相关电信数据,这些数据背后隐含了各种各样的用户行为模式,甚至包括电信诈骗、养号和薅羊毛等黑产行为,亟需利用异常检测技术发现异常用户从而打击犯罪,并且利用聚类分析技术构建用户画像从而实现精准营销,以帮助运营商降低运营成本并提高服务质量。本文依托于机器学习和深度学习技术,以实现基于电信数据的异常检测和用户聚类分析为目的,提出并搭建了多维电信用户行为分析框架,设计了能够实现高效电信异常用户检测的分层局部敏感哈希离群因子算法(Hierarchical LSH-LOF)和用于电信用户数据降维的因子分解机-自编码器(FM-AE)算法,通过对比实验验证其有效性,最终使用K均值算法进行聚类,完成了电信用户异常检测和聚类分析的任务。本文主要创新点如下:(1)设计了用于异常用户检测的分层LSH-LOF算法,改进了局部异常因子(Local Outlier Factor)算法中k个最近邻点搜索的过程,极大地提高了异常检测效率。该算法借助局部敏感哈希(Locality Sensitivity Hashing)思想,经过由粗到细两次数据映射,逐步缩小k个最近邻点搜索范围,从而缩短了异常检测耗时。与基于KD树的LOF进行的对比试验证明所提出的分层LSH-LOF在几乎不降低检测准确度的情况下耗时仅为前者的1/7。本文应用分层LSH-LOF算法完成了电信异常用户检测任务并详细分析了异常用户类型。(2)设计了用于电信数据降维的FM-AE算法,改进了基于神经网络的自编码器(Autoencoders,AE)数据输入端的网络结构,提高了降维算法对原始数据重要信息的保留能力。该算法采用因子分解机(Factorization Machines,FM)在自编码器输入端学习二阶交叉特征,与原始数据拼接后输入自编码器,端到端训练后由隐藏层输出降维后数据。与PCA、核PCA、LLE、t-SNE、普通自编码器共五种降维算法的对比实验证明FM-AE能够更有效地保留原始数据信息。本文应用FM-AE算法完成了电信数据降维,然后采用K均值聚类算法进行了用户聚类,给出了用户画像分析和精准营销建议。
其他文献
川中地区中二叠统茅口组发育了一套优质白云岩储层,但分布极不稳定,似乎与岩溶作用有关,该白云岩储层形成的主控因素究竟是白云石化作用还是岩溶作用,且它们之间的关系尚不清
板料冲压是汽车制造过程中的重要生产方法,冲压件成形质量的优劣对汽车的生产成本和生产效率都会产生很大的影响。金属薄板的各向异性与拉-压强度差效应(SD效应)在板料成形过程中决定着成形件的精度与质量。因此,如何准确描述板料成形过程中的塑性本构关系以及力学性能,对塑性成形理论的发展具有重要推动作用,对实际生产将具有重要的工程应用价值。本文以汽车轻量化中金属薄板的成形过程为背景,以金属塑性成形原理为基础,
琼胶酶是一种能够降解琼脂以形成琼脂糖寡糖的糖苷水解酶,根据琼胶酶水解糖苷键的不同,可以分为α-琼胶酶(EC 3.2.1.158)与β-琼胶酶(EC 3.2.1.81)两类。目前,野生菌株生产琼胶酶存在诸多问题,缺点包括产酶量低、易污染、生长慢等,不利于大规模工业化生产。基于以上问题,本课题将一段弧菌琼胶酶蛋白基因重组于表达载体pET30a(+)上,然后转入宿主大肠杆菌BL21体内,通过宿主大肠杆菌
随着互联网和人工智能技术的发展,目前市面上出现了智能音响、语音助手等产品。而机器如果能做到语音情感识别,就可以提供更友好的用户体验。除此以外,语音情感识别在抑郁患者治疗、线上远程教育等方面有着广阔的应用前景。随着深度学习在语音情感识别领域中得到广泛应用,语音情感识别准确率也得到了有效的提高,然而目前语音情感识别仍然有许多的研究难点。情感信息不均衡的分布在语音信号上,在这种情况下如何提取更为有效的特
硅质岩形成于特定的地质地球化学环境,其内部古生物组合以及岩石地球化学特征对探讨岩石成因、沉积时代、地质背景和区域地质构造演化历史具有十分重要的研究价值。甘孜—理
随着我国社会经济的高速发展和用电需求的提升,对电力系统的要求越来越高,为更好的服务社会,增强服务竞争力,电力企业对小型基建工程的建设需求越来越大,与此同时,小型基建在
本论文使用简单易行的热蒸发法、利用自行组装的实验装置,较系统地研究了金属氧化物In2O3、SnO2、Bi2O3纳米线及掺锡氧化铟纳米线的制备过程,研究了加热温度与加热时间对制备
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析,数据质量评估和数据库设计有广泛的应用。在传统的集中式数据集,函数依赖发现的研究已经十分透彻。然而随着时代的发展,大数据时代的到来,数据信息的总量呈几何倍数增长,数据库的规模也随之飞速增长,以往集中式数据集由于物理设备限制等各种原因,在某些场合已经不再能满足场景需求。在这样的背景下,分布式数据库随之产生,它相比集
互联网+环境下,电子商务业发展势头良好,物流服务需求与日俱增。物流派送作为最直接服务消费者的环节,受到多种因素的影响。当前,单一约束的车辆路径问题研究已相对成熟,而实际的派送过程由多种约束共同作用。因此,如何在多种约束同时作用下提高物流派送效率,成为当下物流派送优化中亟待解决的重要问题。针对物流派送服务受到的多种影响因素,对真实路况下大规模车辆路径计算与优化进行了研究。在分析前人研究的基础上,构建
地处青藏高原东南缘的四川康定位于西南季风区,对气候变化非常敏感。本文选取折多山西麓的高原封闭湖泊沙德措(海拔4446 m)为研究对象,在湖心钻取了121 cm长的沉积岩芯,通过