论文部分内容阅读
基于P2P技术的应用在我国经过十余年的发展,己逐步成为互联网技术改变广大用户生活方式进程中不容忽视的组成部分。但对于网络服务提供商而言,随着P2P应用的广泛使用,带宽资源的巨大消耗一直是影响网络整体服务质量的重要因素。尽管网络服务提供商已经针对P2P流量的识别和管理做了很多研究,提出了一些解决方案,这个问题仍有进一步改善的空间。特别是随着大数据时代的到来,使得在大规模的数据集上实现计算成为可能,与这些新型技术的结合为很多领域的理论研究带来了新的突破。面对海量的P2P网络流量,可以利用云计算技术突破计算的瓶颈,从更加完整和宏观的角度上观察P2P流量的分布情况,总结其特征,进而提出在海量数据中识别P2P流量的方案。本文中,首先介绍了当前得到广泛应用的分布式计算平台Hadoop的基本结构和相关组件的特点。之后,以具体的P2P应用软件为例介绍了P2P业务的通信流程,并在此基础上从P2P中不同角色的行为特征的角度,总结提出了适用于MapReduce编程模型的P2P流量的识别方法,这种方法可以有效处理海量网络流量数据,适应当前快速增长的数据规模和处理需求。接着,介绍了基于Hadoop平台实现的分布式P2P流量识别和分析系统的详细设计方案,重点介绍了话单关联、并发汇聚和角色识别等核心组件。最后,结合识别结果对P2P流量的一些特征进行了总结和分析。