大规模移动应用流量识别技术的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:czronick
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,移动终端的普及率不断提高,移动应用市场规模不断扩大,导致移动网络流量飞速增长,移动应用的流量识别技术成为目前热门的研究课题。现有的移动应用流量识别工作主要围绕流量数据自动化采集和智能分析两方面展开。在流量数据采集方面,动态测试技术往往存在流量覆盖率较低、流量数据获取不全面的问题,而静态信息抽取则面临着方法复杂度高、时间消耗大,或应用建库规模过大,难以进行大规模分析的问题。在移动应用流量分析方面,现有工作分别针对明文流量或加密流量进行识别,从系统开发角度而言有必要集成这两部分的技术,并且现有研究仅使用人工提取方式对明文流量中的应用强标识符进行挖掘,无法实现大规模的强标识符自动化提取。针对上述问题,本文以平衡流量覆盖率及方法复杂度为目标,设计了动态测试和静态分析相结合的流量信息提取技术,并提出基于流量内容和流量统计特征的流量识别方法。具体工作主要包括以下三个方面:(1)提出了基于函数调用图的动态流量信息采集和基于数据流分析的静态流量信息抽取相结合的移动应用流量信息获取方法。前者通过遍历应用的函数调用图获取应用流量产生路径,以此指导基于Android模拟器的应用自动化测试,以更精准地采集流量信息。后者分析应用中间代码,使用数据流分析等方法抽取代码中的流量信息。通过整合上述两种方式解决流量信息采集时覆盖率低、复杂度高的问题。(2)提出了基于流量强标识符、内容指纹的层次化明文流量应用识别方法和基于统计特征的加密流量应用识别方法。对于明文流量,提出应用强标识符的自动化提取技术,并结合流量内容信息设计了基于朴素贝叶斯的指纹识别方法。该方法对单条流量识别准确率能达到90%,而当连续分析4条流量时,准确率能到达97%以上。对于加密流量,基于流量统计特征及DNS域名、SSL证书等辅助信息进行识别,可达到89%以上的识别准确率。(3)在上述研究成果的基础上,设计并实现了移动应用识别系统,支持实时流量采集和在线应用识别。综上所述,本论文通过动态采集和静态抽取技术实现了高效的流量信息获取,在此基础上针对明文流量和加密流量设计实现了基于流量指纹的应用识别方法,并针对明文流量中的强标识符设计了大规模自动化挖掘方法,从而更为有效地利用其进行流量识别。最终实现了一套应用识别系统,支持对流量的应用来源进行在线识别。
其他文献
学位
学位
三叉神经痛是神经系统的一种顽疾。现有的治疗方法主要为消融手术,其原理是消融针上通过电流会产生高温,使得三叉神经痛病灶部位组织凋亡、毁损。消融手术难点在于如何将手术器具穿刺到达病灶。现有穿刺方法主要为:依靠医生经验徒手穿刺和依靠医学设备引导穿刺,两者的成功率都较低,若因穿刺点位置或穿刺角度等偏差而造成穿刺失败,后果很严重。基于医学图像,采用计算机程序实现穿刺路径自动规划,能够使消融针在穿刺过程中对患
学位
随着机动化的交通需求迅速增长,快速道路交通拥堵问题愈发严重。现有的主动交通管控方法,包括入口匝道控制和可变限速控制,是缓解快速道路拥堵最有效的控制方式。入口匝道控制通过调节匝道汇入主线的流量,可变限速控制通过调节瓶颈上游路段的限速值,两种控制方式都是通过防止瓶颈路段通行能力下降来提高快速道路的通行效率。近年来对于快速道路瓶颈路段的研究主要针对合流区的瓶颈,针对快速道路远距离下游瓶颈的研究较少,而在
学位
阿尔茨海默病是发病率较高的神经系统退行性疾病,临床表现为记忆力减退、进行性认知功能衰退,同时伴有各种精神行为异常和人格改变,严重影响患者的生活质量。有资料表明,继心脏病、恶性肿瘤、脑卒中后,阿尔茨海默病已经成为老年人死亡的第四大杀手。关于阿尔兹海默症的致病机理,普遍认为是β-淀粉样蛋白通过与细胞膜的相互作用,诱导细胞产生毒性。但是关于两者相互作用的机制仍有很多关键问题没有解决,因此有必要深入了解β
学位
学位
化业生产过程(如印染、造纸等)常有废液产生,而这些废液中往往含有浓度较低的Na OH溶液,若将其直接排放到外界环境中,不仅污染了水体和土地,还浪费了碱原料,这与节能环保理念相违背。因此,将工业废液高效浓缩再生,获得较高浓度的Na OH溶液,并加以利用非常有必要的。热泵具有较高的能效比,在工业生产中有广泛的应用,若将热泵循环应用于碱液蒸发系统,将会达到较好的节能效果。国内外学者对基于热泵循环的碱液蒸