基于Spark的在线欺诈检测算法设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:nimadehundan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代背景下,电子商务、第三方支付等线上业务爆发式增长,随之而来的是日益猖獗的线上欺诈案件,在线欺诈检测技术作为企业风控能力的基石,通过对业务行为建模,更加精准、高效地识别欺诈案件,为广大用户和线上平台挽回损失、规避风险,发挥着巨大的作用。由于线上欺诈案件与正常交易的极度不平衡性,在线欺诈检测需要重点解决不平衡学习问题。除此以外,随着线上业务量日益增长,在线欺诈检测系统作为业务系统的核心组件,对其性能要求也越来越严格,将大数据技术和在线欺诈检测有机结合将极大地提升企业的风控防御能力。本论文从相关技术介绍切入,详细讨论了包括分布式计算框架Spark,实时流计算组件Spark Streaming在内的大数据技术,同时介绍了在线欺诈检测研究的进展。结合大数据背景,本文提出了基于聚类的数据集自平衡构建算法和分布式资损敏感Lasso算法,将两者有机结合基于Spark分布式计算框架进行了实现,并在实际在线欺诈检测数据集上进行了相关指标的测评。本论文的主要贡献有:1)提出了一种基于聚类的数据集自平衡增量构建算法,利用增量聚类算法度量类内样本的相似度,选择类内具有代表性的多个样本点构成训练集,在能够保留时序数据信息的情况下,有效解决在线欺诈检测数据集的类内、类间不平衡等问题;2)结合在线支付欺诈检测场景,提出了分布式资损敏感Lasso算法,在大数据背景下能够高效地进行模型训练,并能有效提高在线欺诈检测模型的资损率;3)基于Spark分布式计算框架和Spark Streaming实时流处理组件,无缝集成基于聚类的数据集自平衡增量构建算法和分布式资损敏感Lasso算法,验证了上述方法在大数据背景下的在线欺诈检测场景的有效性。
其他文献
为了建立对区域范围内各医疗机构业务联动,实现数据共享或业务协同,需要各医疗机构在个人身份上具有统一的身份机制,此项工作是区域卫生信息平台建设的基本任务。由于发卡机
随着Web2.0应用的快速发展,越来越多由用户生成的内容成为了互联网上的一个重要信息来源,出现了许多社会媒体网络站点,如Flickr、Facebook和YouTube等网站。这些网站中存在大量
当前,指纹识别仍然是一个研究热点。经过国内外同行的多年努力,指纹识别在越来越多的领域得到了广泛的应用,但是指纹识别中仍然存在许多问题,如高安全应用问题,多模板集成问
数据流挖掘是当今的热点问题之一,具有广阔的发展前景。离群点检测是数据挖掘的基本任务之一,具有非常重要的研究价值,始终受到研究人员的重视。虽然传统静态数据集的离群点检测
随着计算机技术的快速发展,智能交通系统成为了世界各国的研究热点,它是解决交通问题的一个有效办法,为交通管理的发展指明了方向。智能交通系统将先进的信息技术以及计算机技术
随着信息化程度的不断提高,海量的数据存在于实际的应用中。但海量的数据中往往存在大量的冗余,所以,剔除这些冗余可以大大提高数据的处理能力。作为一种处理不精确、不一致
随着互联网的飞速发展,随着手机、数码相机、平板电脑等移动设备技术的不断进步,越来越多的图像、视频等媒体不断涌入互联网并且持续传播扩散。面对如此大规模的Web图像数据,
计算机技术的出现,使得医学领域发生了重大变化,十九世纪五十年代计算机技术就已经应用在病历管理上,其后是财务管理、病房监护等等。而计算机成像技术快速发展,使得图像处理技术
基于视觉的手势识别技术以自然而又直观的人手作为输入方式,提供给用户更加和谐、自然的交互方式,它一直是人机交互的重要研究课题,具有广阔的实际应用前景。近年来,随着计算
随着大规模网络开放课程的飞速发展,在线教育这一全新的学习形式开始被越来越多的人所接受。用户通过互联网可以学习到各种领域的知识和技能,但随着在线课程资源数量的增加以