P2P流量识别关键技术研究

被引量 : 11次 | 上传用户：lwjjet

【摘要】

：

网络流量识别是管理大型网络的一个重要任务,同时也是合法截留方法的主要组成部分。随着网络技术的快速发展与广泛应用,许多新的P2P应用层出不穷。P2P应用技术资源利用率高、

【作者】

：

彭建芬

【发表日期】

：

2011年01期

【关键词】

：

P2P 流量识别启发式基于监督的机器学习支持向量机决策树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络流量识别是管理大型网络的一个重要任务,同时也是合法截留方法的主要组成部分。随着网络技术的快速发展与广泛应用,许多新的P2P应用层出不穷。P2P应用技术资源利用率高、信息存储的非中心化等特点使得P2P技术在文件共享、分布式计算、协作系统和电子商务中应用广泛。随着P2P应用的不断增多,P2P流量所占网络流量的比重越来越大,国内P2P流量占总流量的70%以上,准确地识别网络中P2P应用的流量对网络规划设计、QoS保证等都有十分重要的作用。另一方面,P2P应用的网络软件设计缺陷使得攻击者易于发起庞大的拒绝服务攻击,从而使得互联网网站轻易地崩溃。P2P网络分散式的存储结构、方便的共享原理和快速的选路机制,有利于木马、病毒等破坏性程序的传播。为了保证网络的正常运行,需要对P2P流量进行快速、准确地识别。目前P2P技术采用动态端口技术和载荷加密技术逃避基于端口和基于应用载荷签名的P2P流量识别算法的检测。当今普遍研究的流量识别算法是基于行为特征的流量识别算法和基于机器学习的流量识别算法。本文提出的P2P流量早期快速识别算法和改进的启发式P2P流量识别算法术分别属于基于机器学习的P2P流量识别算法和基于行为的P2P流量识别算法。P2P流量早期快速识别算法利用监督的机器学习算法对流初期几个包提取的特征进行分类,识别正确率高,适合于对P2P流及具体的P2P应用的早期识别。改进的快速启发式P2P流量识别算法利用P2P流与非P2P流之间在传输层表现出的不同,能快速地识别出P2P流以及P2P部分具体流行的应用。最后本文研究了P2P应用主机TCP流的连接特性和自相似性。本文的主要研究工作包括以下几个方面：(1)为了对P2P的TCP数据流进行及时、快速并准确地识别,起到对P2P流量预警和控制的作用,本文提出了一种基于SVM的TCP流量早期识别算法。该算法根据不同应用流的包到达的实际情况,利用TCP流初期的三个数据包的载荷大小和服务器端口作为流量特征,利用支持向量机的高斯径向基核函数进行一对一多类分类。实验结果比较和分析表明：根据提取的特征,采用无偏训练样本,选择合适的参数能快速而有效地识别WEB、MAIL、P2P中的BitTorrent和eMule流量,这种早期流量识别算法的特征值的得到无需等待流的结束,特征提取简单。由于提取的特征不涉及到协议签名,因此早期流量识别算法对加密流量或伪装特性的业务流量识别同样适用；(2)为了减少建模的时间和提高分类的正确率,在基于SVM的TCP流量早期识别算法的基础上,提出了基于C4.5决策树的P2P流量早期快速识别算法。分类结果比较和分析表明：相对于其它两种分类算法,C4.5决策树进行分类时识别正确率高,分类速度快。因此这种早期快速识别算法利用TCP流初期的三个数据包的载荷大小和服务器端口作为特征能快速有效地识别出WEB、MAIL、P2P中的BitTorrent和eMule流量；(3)为了提高Karagiannis等人提出的P2P流启发式算法的识别正确率,利用端口4662、有效数据流的计数原理、BitTorrent对等协议握手消息数据包的载荷大小固定特点以及Skype流的包载荷特点对其进行改进,提出了一种改进的快速P2P流量启发式识别算法。实验结果比较和分析表明：在识别P2P流和Non-P2P流时,选择合适的对等点阈值,能有效识别出P2P流以及P2P流对应的部分具体应用；(4)为了识别出P2P应用主机,对P2P应用主机TCP流从连接特性和自相似性两个方面进行了研究。P2P系统的主机扮演双重角色：服务器和客户端。非P2P系统的连接模式采用传统的客户/服务器模式,发起连接时以很高的连接成功率进行,与之相反的是,由于P2P系统的动态性,P2P主机不断地向其它在线主机发起连接以保证稳定的下载速度。与系统动态性和连接成功率相关的参数为：传输的SYN包数、传输的SYN+ACK、传输的SYN包不同目的地址数、接收的SYN+ACK包的不同源地址数包数、传输的SYN包不同目的端口数、接收的SYN+ACK包的不同源端口数。实验结果比较和分析表明：在识别P2P和非P2P传统应用主机的TCP流时,利用后四个参数比利用六个参数作为流量特征有效。主机流量的自相似性从时间上和行为上进行了分析,行为上的自相似性研究表明P2P应用主机在收到一定数量的数据包后,其数据包载荷变化很小。

其他文献

基于消费行为认知的电信企业客户细分方法研究

随着3G时代的到来,电信市场的竞争越来越激烈,客户资源成为电信企业竞争的焦点。企业对客户的认识表现为企业掌握的客户知识,而客户消费行为规律是客户知识的重要组成部分,因

学位

客户细分消费行为数据挖掘聚类方法电信企业实证研究

关于曹植诗歌创作的两个问题

曹植的诗歌创作分为前后两个时期,前期创作的赠答诗具有强烈的时代特征和鲜明的艺术个性。这些赠答诗都集中于其诗歌创作的前期,后期未创作赠答诗完全是出于政治原因。在曹植

期刊

曹植赠答诗建功立业向往自由

攻击性驾驶行为评价方法研究

攻击性驾驶行为是指有意识的对驾驶环境中他人进行身体、心理或情感伤害的行为。它的产生是由多种原因造成的,如驾驶员个体性格、工作压力大、生活不顺心和生活环境恶劣等都

学位

攻击性驾驶行为层次分析法评价方法表征指标应用实例

中西传统道德教育使个人生活片面化的历史考证

生活是指个人能动地、自主地围绕着自身生存以及生命展开所进行的功能性活动、事件和状态的总和。道德教育本来应该是跟随着人们的生活,并为着人们的更好生活服务。但是,在传

期刊

中西传统道德教育生活

论异化劳动学说对于历史唯物主义的奠基意义

马克思的异化劳动学说并不外在于历史唯物主义 ,恰恰相反 ,没有异化劳动学说就没有历史唯物主义 ,异化劳动学说源自对国民经济学前提的追问 ,即追问私有财产的人学本质 ,这一

期刊

自然对人的本质的关系现象学的人学活动之异化“最充分意义下的”人本主义

脂肪因子visfatin在妊娠期糖尿病发病中的作用

妊娠期糖尿病(gestational diabetes mellitus, GDM)是孕期常见的并发症之一,其临床经过复杂,严重威胁母儿安全。GDM的发病机制尚不清,经典的观点认为孕期胎盘泌乳素、催乳素

学位

VisfatinGDM胎盘脂肪组织胰岛素抵抗BeWo细胞

想象的折叠与界限——20世纪90年代以来的中国科幻小说

20世纪90年代以来的中国科幻小说是当代文化焦虑的镜像之一,它包含着复杂的将历史再"空间化"的过程,隐藏着丰富的问题性。这一时期的科幻小说在文体上体现出"时空折叠"的特征

期刊

科幻小说王晋康终极意义阿西莫夫刘慈欣科幻文学

颈椎单开门OsteoMed M3钉板内固定椎管扩大成形术生物力学及临床研究

背景随着社会的发展、人口老化、尤其是人们工作和生活方式的改变,颈椎病的发病率逐步增高,己成为临床常见病和多发病之一,对社会、家庭和患者造成很大的危害。医学的发展对

学位

单开门椎管扩大成形术颈椎病内固定生物力学后路减压后纵韧带骨化

PLA/TPU共混物及其纳米复合材料的流变—形态—性能研究

聚乳酸(PLA)是一种理想的绿色可再生材料,具有广泛的应用前景,但质脆的缺点一直限制着它的应用范围。本文采用共混和纳米复合的方法改善PLA的韧性,通过剪切流场和剪切-混沌流

学位

PLATPU共混物纳米复合材料流变形态性能

嵌入式Widget的端到端技术在移动互联网平台上的设计与实现

嵌入式硬件的飞速发展,带来了手机操作系统的全新变革。以代码效率著称的Symbian系统占领智能手机一大半市场的格局,目前已经被打破。越来越快的处理器,越来越大的存储器,越

学位

手机微件端到端应用商店跨平台应用安全

P2P流量识别关键技术研究

其他学术论文