大数据环境下异常通话行为检测的研究

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:ac8297090
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信行业的不断发展,广大用户开始逐渐享受到多样化的通信服务。但越来越多恶意的异常通话行为不断涌现,大量的群体或个人以电信诈骗、营销或个人攻击等手段对目标人群实现骚扰,使普通用户无法正常通信,导致用户体验变差。这种行为严重影响了用户正常地使用网络资源,恶化运营商的品牌形象,因此对异常通话行为进行识别的研究工作具有非常重要的实际意义。由于电信公司的日呼叫记录数据量都在千万级以上,实现异常行为的识别需要对海量的通话数据进行分析。而海量数据的存储和处理相当困难,只有通过设计合理的分布式系统并使用数据挖掘技术,才能够实现对这种数量级别的业务数据进行分析,进而实现对异常行为的检测。本文首先陈述了异常通话行为检测的背景、研究现状,并对论文的主要工作内容进行阐述。接下来学习相关技术,详细了解数据挖掘算法,重点掌握了数据处理与随机森林等分类算法的相关内容。本文将随机森林算法应用到异常通话行为检测领域中来,并针对话单中异常通话与正常通话数据不平衡的特点,提出KSR解决方案(KSR Solution),即使用K-Means聚类算法对多数类样本降采样,应用SMOTE算法对少数类样本升采样使数据集更加平衡,然后使用随机森林(Random Forest)分类器对样本进行训练,最终对模型进行验证与分析对比。实验结果表明通过该方案训练生成的分类器在误判率、准确率等指标上都有非常好的效果。同时,为了存储、处理海量的话单数据,设计了异常通话行为分析系统,采用Elasticsearch集群,充分利用集群的威力进行高速运算和存储。对数据采集、数据预处理、数据存储以及分析等模块进行设计,其中主要对数据预处理模块进行阐述,介绍了其主要流程并提出层级文件处理方法以减小内存占用。通过对系统进行测试,结果表明本文设计的异常通话行为检测系统有着良好的效果。
其他文献
第一章概述了典型的荧光探针识别机理,详细介绍了细胞内pH的功能及监测意义,探针进入细胞的方式以及细胞内pH荧光探针的研究进展。在此基础上,提出了本论文的立题背景、研究
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>教学内容:人教版《义务教育教科书·数学》三年级上册第104~105页。教学目标:1.借助直观图利用集合思想解决简单的重叠问题,并能用数学语言表达。2.经历集合图的产生过程,
<正> Digoxin为洋地黄类强心药,多年来广泛应用于临床各种类型心脏病所致的心力衰竭及某些心律失常,为疗效好的强心药。85%由肾脏排出,由于其治疗量与中毒量接近,故从临床上应
省委书记娄勤俭近期在全省宣传思想工作会议上指出,要准确把握宣传思想工作的新坐标新方位,努力构筑思想文化引领高地、道德风尚建设高地、文艺精品创作高地,推动宣传工作走
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
中国房地产报:《政府工作报告》定调房地产调控,这对未来几年的市场走势有什么影响?$$杨铿:随着国家经济稳步发展,城市化的积极推进,人口结构的不断改变和产业结构的升级,老百姓对于
报纸
2016年3月18日,美洲至我国首条满载71000吨大豆的散货班轮“啥蒙德”轮,在日照港顺利完成接卸任务,并创造了单班接卸量28200吨、昼夜接卸量52997吨的双纪录。