论文部分内容阅读
作为互联网与电信网融合的重要产物,VoIP业务近年来在全球得到了快速而持续的发展。我国目前虽未正式开放VoIP业务运营,但由于VoIP具有技术门槛低和业务利润高的特性,网络中存在大量非法、隐性的VoIP网关在运营。这些网关不仅对传统电信业务造成很大分流,也为不良信息的传播提供了便利渠道。如何对VoIP业务实施有效管控,净化电信网络环境,成为迫切需要研究的课题。本文依托国家“十二五”863计划信息技术领域某主题项目,对VoIP呼叫实时分拣中的若干关键技术开展研究,从而为VoIP业务监管提供技术支撑。文章采用一种先利用VoIP流量数据寻找运营VoIP业务的网关地址,然后通过已知网关地址库实现VoIP呼叫实时分拣的技术思路,并根据该思路,对其中的两类关键技术重点开展研究:一是与具体协议无关的VoIP流量识别技术,利用该技术实现对互联网中各类VoIP业务数据的筛选;二是VoIP网关节点识别技术,利用该技术从VoIP业务数据中发现正在运营的VoIP网关地址。在此基础上,结合其它成熟技术,给出了VoIP呼叫实时分拣子系统的设计方案。本文主要的创新及成果如下:提出了一种基于C4.5决策树的VoIP流量识别方法。针对传统方法识别对象单一,对未知应用识别能力差和对网络的适应性不足的缺点,根据机器学习用于流量分类的原理,通过选取能够反映VoIP语音数据包传输规律的统计特征,设计了一种基于C4.5决策树的VoIP流量识别方法。利用Weka平台构建分类器进行测试表明,采用C4.5决策树的分类器要明显优于其它机器学习分类算法的性能,而本文所新增的两个特征可以反映连续VoIP语音数据包的本质规律,识别的准确性明显优于仅选取传统特征进行识别的情况。提出了一种基于SVM的VoIP网关节点识别方法。借鉴互联网中其它节点的识别方法,针对VoIP呼叫的规律和特点,从VoIP网关节点与类PC节点之间的区别出发,归纳出可用于节点识别的若干特性,并结合话务分布的时域特性分别提取统计特征,用这些特征联合描述训练样本。结合SVM在小样本、高维数情况下的分类优势,利用Weka平台构建SVM分类器。实验结果表明,SVM对网关节点的识别性能要明显优于其他分类算法,同时,实验还评估了所选特征对于分类的贡献,进一步证明了所选特征的有效性。以上述技术为基础并结合现有成熟技术,设计了VoIP呼叫实时分拣子系统。采取前、后端协同处理架构,前端通过成熟的五元组匹配和信令监测技术实现对已知网关中每个VoIP呼叫的实时精确分拣,后端利用流量识别和网关节点识别技术分析互联网VoIP流量数据,及时发现新的网关地址并载入前端,前后端相互反馈,形成具备自学习能力的VoIP呼叫分拣机制。