文件碎片类型的高效识别技术研究与实现

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:ig226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
起源于数字取证领域的文件碎片的类型识别,就是对不完整的数据块进行原文件类型识别的过程。随着文件碎片类型识别研究的深入这项识别技术不在局限于数字取证,逐渐发展到网络安全、逆向工程和网络协议解析等领域。在这些领域中,“如何快速准确地识别出文件碎片的文件类型或数据包中所含有数据的文件类型”是一个至关重要的问题。已有的方法主要集中在提高文件碎片类型的识别精度上进行研究,但这些方法在当前海量数据情况下往往在分类性能上存在问题,本文针对海量文件碎片类型识别所存在的问题进行研究,并提出相应的解决方法。首先,本文提出一种基于分层模型的文件碎片类型识别方法。针对文件碎片类型识别中需要分类的类别数越多,分类准确性越差的问题。先将各种文件类型进行聚类,减少第一次分类的数目,再在各个文件聚类的类中进行精细化识别文件碎片的所属文件类型。由于分层识别的模型中在聚类中类型数量相对少了许多,这样就缓解了分类过多带来精度降低的问题,从而提高了文件碎片类型识别的精度。对包含44种文件类型的文件碎片数据集进行类型识别的实验结果显示平均识别精度达到63.5%,平均召回率为69.8%。其次,本文还提出一种基于Map Reduce的文件碎片类型识别方法。解决文件碎片识别速度及可扩展性的问题。利用MapReduce编程模型将原大规模文件碎片数据集根据Map的数量切分成相同大小的小型数据集,并在各个Map端进行SVM迭代训练,经过两次迭代训练后得到的支持向量,最后用于建立文件碎片类型分类的SVM模型。实验结果显示文件碎片的识别平均精度为71.6%,并且需要花费的时间训练随着工作机器的增加,成倍减少。本文两种方法都是基于在文件碎片识别工作现存的问题,尝试利用分层分类和分布式计算模型,来提高文件碎片识别中的精度和识别的速度。
其他文献
期刊
This study explored the relationship between Farmville play and social capital. The implications of social game play for players’ psychological wellness were a
水工建筑物混凝土常常出现渗漏、裂缝、冻融剥蚀、冻胀、冲磨空蚀以及伸缩缝漏水等病害。为了及时消除病害,需要采用有效的修补材料及可靠的技术。文中介绍了水工建筑物混凝
社区矫正制度作为一种新的刑罚执行方式,其与其他传统刑罚方式有着较大的区别,可以有效弥补监禁刑的不足,并符合当前社会化服刑的刑罚发展趋势。社区矫正制度自身所蕴含的社
移动支付领域的飞速发展迎合了人们崇尚快捷、便利的价值取向,划卡支付、无现金支付是人们的首选,小额免密支付也是其中之一,通过免密支付一方面给人们的生活带来了便利,同时
现如今我国的高校作为一个为国家输送高人才的主要阵地,除了要注重对于学生理论知识的培养之外,还需要加强对于学生自身素质和思想政治方面的培养,只有高技术的人才与精神信
探讨三醋酯纤维的可纺性能以及莱赛尔A100三醋酯纤维混纺纱的生产工艺。介绍了纺制莱赛尔A100三醋酯纤维混纺纱线的工艺流程及各工序的工艺参数;讨论了避免三醋酯纤维在生产
加强对危险化学品的监管,确保安全无事故发生,是政府的重要职责,也是行政管理的重要内容之一。坚持问题导向,创新现行行政监管体制,保障危险化学品各个环节安全,是深化行政体
纤维素是重要的可再生资源,受到化纤生产厂家的广泛重视,而源于纤维素原料的醋酯纤维已有百年历史。本文重点介绍了醋酯纤维的技术特征和主要产品,主要涉及过滤丝束、纺织用
从目前检索语言的发展出发,论述了受控语言和自然语言的对比及受控语言的先控和自然语言的后控的对比两个问题。提出情报检索语言发展的自然语言和自然语言化趋势,认为当前应着