论文部分内容阅读
随着互联网信息技术的不断更新与快速发展,大量僵尸网络与恶意通信的出现严重威胁了网络安全。尽管目前协议解析技术发展已经相当成熟,但是在零先验知识的情况下对于纯比特流的未知协议却无法使用现有的协议解析工具进行识别与解析。本文提出了一种基于零先验知识的比特流协议分析与特征识别方法。该研究源于一项国家自然基金项目,本文研究以比特流协议数据分帧和多协议识别模型的设计为前提基础,将分离出的比特流单协议数据帧作为本文研究的原始输入数据。本文引入特征序列位置信息作为协议特征提取的约束条件,将特征序列及其位置信息构成二维的复合特征,解决了特征字符串重复性的问题。通过设计特征选择算法筛选出能够标识协议不同类型消息的特征字段。以特征选择算法提取出的最少维数的复合特征作为聚类的属性,对协议数据进行聚类分析,将具有相似格式的消息聚到一起。通过设计消息数据帧向量化算法,简化聚类过程从而避免繁琐的计算。目前关于将多方通信的数据流分离成点对点双方通信的数据流的研究几乎没有,本文以大量的通信协议数据作为研究对象,在基于统计学理论的基础上提出了协议特征识别方法以及基于零知识的协议消息地址探测方法,通过该方法来探测协议的通信模式,并且将多方通信的协议数据分离成点对点的消息数据,该方案发表在国外核心会议。最后在前面研究的基础上推断出协议消息数据帧的模式。本文设计并实现了一套基于零知识的比特流协议识别系统,采用比特流协议数据集进行实验验证,并设计了实验评价指标,结果表明本文提出的比特流协议数据识别方案通过特征字段偏移位置的引入,加以约束了特征集合的维度,降低冗余数据的同时也提高了协议识别的准确程度。以ARP协议和ICMP协议为例,对ARP消息类型的识别的准确率和召回率可以到达100%,而对于ICMP协议可以到达98%。该系统并且能够探测出协议消息中的包括固定字段、协议消息类型标识字段以及地址交叉字段等主要特征,以及各个字段的边界长度,有助于未知协议消息的解析研究。