论文部分内容阅读
近年来我国科学技术和信息化产业高速发展,以手机为代表的移动设备快速普及,移动互联网业务涉及到生活的各个方面,人类对手机等移动设备的依赖程度不断提高。移动网络运营商收集的流量数据是关于人类习惯的丰富信息源,对其进行分析与研究,一方面可以了解城市特征,促进城市规划,帮助移动运营商进行蜂窝基站的规划与建设等;另一方面,研究人员通过挖掘互联网业务信息及用户行为特征,可以帮助企业发掘更多的潜在用户。本论文中,主要利用从移动运营商提供的深度包解析数据中解析出的即时通信数据,搭建大数据分析处理平台,分析即时通信业务的用户的行为特征,以及从时空维度进行城市网络活动和地理区域分析,主要内容包括:一、蜂窝无线网络大数据平台的搭建。基于目前主流的海量数据处理技术Hadoop和Spark,并依据移动蜂窝小区数据的存储及计算的需求,搭建了一套用于存储和处理分析蜂窝移动数据的大数据平台。本文将大数据处理平台划分为数据存储与传输模块、数据处理模块及数据工作流模块三个模块,在开源的大数据组件的基础上进行二次开发,实现了Spark Query、Job Submit、Autoflow和Data Transfer等工具。大数据分析系统具备大数据存储、数据传输、多种方式的数据分析和自动化工作流等功能。最后,本文测试了大数据处理平台的任务执行效率,结果显示本文实现的Spark Query处理速度约为Hive处理速度的六倍。二、基于蜂窝网络即时通信类业务数据,分析研究了用户在时间维度和基站在空间维度的分布特征。首先,对蜂窝网络数据中多种业务进行对比,发现即时通信业务具有活跃用户多、移动范围广、活跃时间长和使用时间分散等特点。然后,在时间维度分析中,分析用户会话时长的分布特征,发现截断幂律分布拟合误差最小;分析用户使用即时通信业务的时间间隔的分布特征,发现幂律分布的拟合结果最好;统计分析了活动用户数、记录条数、持续时间和流量等特征,发现用户在时间上的周期性。最后,在空间维度上,发现即时通信业务重度用户的移动轨迹在工作日的重叠率高于其他日期的重叠率;研究市区和郊区的基站密度和HTTP记录的空间密度,发现Log-normal分布的拟合误差最小,并且基站密度和记录条数密度之间存在线性关系。三、基于因子分析的时空联合分析研究。利用探索性因子分析技术对蜂窝网络中即时通信业务进行分析。在时间维度上,分析了蜂窝网络活动的规律,发现5种典型的工作日和休息日的活动特征,其中每个工作日包含工作时间、午餐晚餐时间和晚间休息娱乐时间的特征;对地理区域分析中,发现了具有不同城市功能类型的区域,包括高校类、工作类、餐饮类和娱乐类等,并且不同的类型区域在时间上具有不同的活动规律,如高校类和工作类占比较高的区域在工作日上下午更为活跃,餐饮类和娱乐类的区域在休息日更活跃;我们通过用户数、HTTP记录数和持续时间等不同统计量进行因子分析,发现了EFA在蜂窝网络数据的时空分析上的通用性;对不同规模的城市进行分析,发现数据量越多,该方法能揭示的蜂窝网络活动规律越具体。