论文部分内容阅读
随着网络的不断发展和应用的普及,人们对网络的依赖越来越多,网上聊天、休闲娱乐、电子购物等随处可见。在网络应用的进行中,其中产生了大量的数据。而流量日志数据就是其中的一类,它实时记录用户在网络中的行为踪迹,数据规模比较大。这些数据中蕴含着业务需求与异常行为等比较丰富的信息,而这些信息在数据中是难以直接发现的。为了便于数据阅读者获取其中蕴含的信息,需要使用一些方法将这些隐藏的信息发掘出来,可视化就是一种很好的手段。
针对大规模网络流数据中用户与资源的业务需求和异常行为的发现等问题,本文设计了大规模流数据可视化分析的架构模型。首先,从网络中采集数据,然后对采集到的数据进行清洗,提取数据中的属性特征,最后将属性特征按照不同的关系类别使用不同的可视化展现形式表示出来并进行分析。在研究过程中,主要解决了以下几个问题:(1)对大规模流数据的索引进行优化,选择高效的方法以实现实时处理;(2)根据数据中属性特征之间的关系提取出不同的属性特征;(3)对不同的业务需求选择合适的可视化展现方式进行分析;(4)对系统的不同模块进行集成,以实现数据采集、数据处理与图形生成的实时可视化分析。
最后采用校园网DNS日志数据对可视化的架构流程进行验证,从时间区间、空间区域、属性排名和属性关联等方面对数据进行属性特征提取,通过不同的图形表现形式对数据进行可视化展现并作简单分析。达到了提供数据的直观表现形式、发现数据中隐含信息的目的,为管理者更好的管理网络提供了帮助。