论文部分内容阅读
本论文结合数据挖掘的理论,提出一个基于小波分析的时间序列挖掘的数据挖掘模型,它支持时间序列数据挖掘的整个过程。该模型应用小波实现数据的多层次可视化表示、数据约简和多尺度模式发现。它可以帮助用户观察高维数据,理解中间结果和解释发现的模式。
电信行业存在着大量现时的和历史的操作型数据(如用户基本信息、用户呼叫行为信息和帐单信息等),这些海量数据的存在是进行数据挖掘的前提条件,也是需要采用数据挖掘技术的根本原因。同时,这些用户数据可以用时间序列来表示,进而通过对数据进行基于时间序列的分析可以预测用户未来的行为特征,发现用户使用行为模式,并进行模式分类,从中区分出。
但是,电信的海量数据形成的不仅仅是简简单单的时间序列,从表征上就可以猜想其必是不同频率成分组成的复杂时间序列的集合。小波分析能将交织在一起的不同频率成分组成的复杂时间序列分解成频率不相同的子序列。基于小波分解和重构思想,可以尝试将用户通话行为的日通话量过程分解成不同尺度下的小波系数(细节)和尺度系数(背景),对分解所得的系数按实测资料显示的主周期(年)进行随机重构,从而获得各种各样的日通话量过程线。当小波函数和尺度函数或滤波器确定后,分解和重构过程不需估算参数,也不必进行前期分析和任何假定,因而,这种随机模拟方法具有非参数化特征。通过这种动态过程的模拟,就能对用户的使用行为进行仿真,从而能区分与检测出由异常通话模式引发的电信欺诈行为。
本论文将该模型运用在电信防欺诈业务中,并针对个人话务流量作频率分布特征分析,运用小波分析将不同频率成分组成的时间序列分解成低频和高频成分,然后依据小波系数的重构原理还原时间序列的趋势成分,判断话务流量时间序列的趋势变化。运用小波分析对某省城客户话务流量分析所得结果,建立神经网络模型对该客户话务流量进行预测。基于该预测结果,模拟该客户的通话行为指纹,通过指纹比对,达到防欺诈效果。