论文部分内容阅读
流数据挖掘是对到达的数据流按照一定的序列进行挖掘,它和静态数据关联规则的挖掘的不同在于流数据具有高速、连续和无边界等特性。流数据具有的独特特性给数据挖掘和分析带来一系列问题,比如如何快速高效的识别挖掘周期内的有效模式,模式以何种方式呈现能使使用者容易理解,高速数据挖掘中采用何种数据结构能有效的对数据模式进行维护、保存和删除,如何选择合适的挖掘周期,对于连续的流数据采用何种方式进行噪音处理等。论文在对以上问题研究的基础上,进一步对流数据指标的聚合在网络中的应用进行了研究,多个指标如何反映到一个指标从而有利于业务管理者对业务进行有效的监控和管理。同时,通过对流数据指标的动态学习,深度挖掘流数据的特性,使得业务提供者可以在更高层次上评估用户使用业务的体验。论文的主要工作和创新点简要归纳如下:1)针对如何高效快速的识别挖掘周期内的有效模式,论文提出了一种大规模网络中流数据事件关联分析的算法EARA(Events Association Rules Analysis),通过EARA可以发现未知结构大规模网络中的异常事件,并且可以使得用户选择置信度门限值以达到仅仅提取有效模式的目的。同时提出了一种可视化模式压缩算法VPC(Visual Pattern Compress),解决了流数据挖掘中模式以何种方式呈现能使用户容易理解的问题。实验结果显示EARA算法可以发现重要事件之间的关联关系,而VPC算法进一步压缩事件,使得使用者可以很容易从数以千计的关联事件中发现有用的模式。2)针对高速数据挖掘中采用何种数据结构能有效的对数据模式进行维护、保存和删除问题,论文提出了一种在智能建筑中对于传感网络中的流数据进行增量知识挖掘的算法IKMM(Incremental Knowledge Mining Model), IKMM算法采用树状结构来提高挖掘效率,通过滑动窗口时间参数来控制树状结构的变化速度。另外,通过启发式规则提高关联规则的提取效率。通过同传统的FUP2(Fast Update Patterns 2)和AFPIM(Adjusting FP-Tree for Incremental Mining)算法进行对比,在高维情况下,IKMM算法是其他两种算法效率的10倍以上。3)数据挖掘时机的确定是目前流数据关联规则挖掘算法的研究热点之一,就是在什么条件下需要重新运行挖掘算法提取关联规则,并且在有限的系统资源下尽可能提高挖掘效率和减少挖掘成本。论文提出了一种在流数据挖掘算法中关联规则提取时机的确定算法KRPB(Key Runtime Point Boundary), KRPB只对原始数据集进行一次扫描,在后续周期扫描中利用前次扫描的保存结果进行增量更新即可,在相邻两次原始数据集上取得支撑度附近的频繁项集参与两次数据集的变化差异程度的估计计算,从而确定是否需要运行挖掘算法进行数据模式的提取。4)为了对流数据特性进行有效监控,即如何可视化流数据指标之间的内在本质联系,论文对流数据的可视化数据挖掘进行了研究,即如何用可视化的方式来动态展示流数据之间的内在关系,在这个基础上提出了一种流数据增量式多维可扩展可视化挖掘算法IMDS(Incremental Multi-dimension Scaling)。IMDS通过数据表现的特征形状进行聚类,并且聚类结果会随着时间的推移用动态可视化的方式实时展现。通过仿真实验表明,IMDS算法相比传统的MDS(Multi-dimension Scaling)算法和简易型SIMPLEX优化算法在流数据挖掘中可以明显地提高可视化挖掘效率和可视化效果。5)针对流数据指标的聚合在网络中的应用,论文对网络底层数据流如何映射到业务层进行了研究,通过研究发现,如果能对底层数据流进行实时的聚合和分析,就能使得业务提供者实时观察当前网络和系统的健康状况,进一步能觉察到用户对当前业务的体验状况。论文参考TMF(Telecommunication Management Forum)规范的基础上,提出了K2K(KPI toKQI)算法,使得不同量纲的流数据指标可以平滑聚合到同一指标。但是在以上的聚合中存在如何分配流数据指标权重关系的问题,对此论文进一步提出了一种针对SLA(Service Level Agreement)数据特性的模式提取算法SLAEP(SLA Extract Patterns).本算法主要抽取出网络数据流中关键性能指标和关键质量指标,根据用户的体验进行机器学习发现模式,利用将多维数据转化成多维空间的映射点,有效的避免了求多个指标之间关联度的问题,制定出一种实际运行中可以自动归纳总结满足业务SLA策略的数据度量方法,并且利用可视化数据展示的方式让用户很容易辨别得到的模式是否是可信的,从而调整系统的输入参数以便得到更加准确的结果。