基于机器学习的ARM平台二进制代码函数识别研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:ironbra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二进制代码函数识别是许多二进制代码检测和分析任务的基础,如二进制代码重用、控制流图生成和执行语义分析。它是逆向工程的一个基本问题。二进制代码分析的难点在于多数软件发布时不会附带编译调试信息,所以其二进制代码文件中通常没有函数信息。本文重点研究ARM平台二进制代码的函数识别,提出了两种新的自动函数识别算法。对当前函数识别软件和方法分析发现,大多数要么只能分析x86精简二进制文件,而不能分析ARM二进制文件;要么因为函数起始指令的多样性适用性较差;还有文献中使用返回指令来识别函数,因为一个函数通常有一个返回指令,ret是x86下常见的返回指令,遗憾的是,由于ARM指令的不同,在ARM中没有与之相似的指令。在数据收集方面,对多个开源软件进行交叉编译,对二进制代码反汇编获取其汇编指令对应的机器码,分别输入到机器学习模型和神经网络中进行预处理和最终分析,得到二进制代码的分类,即是否为一个函数的入口点。本文方法自动学习识别函数的关键特性,从识别反汇编二进制码的起始指令开始分析,将二进制代码中一个字节周围的32字节作为字节的特征,利用XGBoost集成学习方法和基于Doc2Vec的Text-CNN网络分别建立分类模型,然后对模型进行训练。在多个流行的开源软件上进行实验,结果表明基于Doc2Vec的Text-CNN模型效果较好,识别准确率和召回率都在90%以上,对软件逆向工程和软件安全分析有实际意义。
其他文献
遥感影像中的云图检测对遥感影像的后续应用具有重要意义。目前,遥感卫星影像在农业生产、天气预报、自然灾害预测、军事科技、地理测绘、变化检测、水利交通等领域应用得越
超冷里德堡原子由于其独特的物理性质被应用于越来越多的物理实验研究中。经过30多年的发展,冷原子为许多基础理论的研究提供了理想的实验平台,如玻色爱因斯坦凝聚的基本性质
Majorana费米子的反粒子是其自身,它满足Non-Abelian(非阿贝尔)统计,是容错拓扑量子计算的有效候选之一。自Majorana费米子被提出以来,对它的寻找从未停止。最近人们发现在拓扑
改革开放以来中国经济快速增长的同时,区域经济发展不平衡问题也日益突出。尤其是区域经济发展分化态势加剧、增长动力极化现象日益突出。区域经济发展的空间格局正在发生深
图像描述任务致力于赋予计算机“看图说话”的能力,即在给定输入图片的条件下自动生成符合自然语言表达习惯且真实反应图像内容的文字序列。该任务通常会采用图像识别模型或
随着云计算和互联网的快速发展,数据的指数级增长对其存储与管理带来了巨大的挑战。暗数据作为一种无标签无关联的数据资源,一直占据着大量的存储空间,却难以在当下发挥价值。若用户盲目的对暗数据进行数据挖掘,可能会导致巨大的成本浪费。因此,在对暗数据进行挖掘之前,先对它进行语义分析和价值评估具有着重要意义。本文通过研究图像哈希算法及图结构排名算法在暗数据价值评估方法上的应用,设计和实现了一套基于相似性哈希的
对于不满足根治手术条件的紫绀型先天性心脏病患儿,通常需要采用体肺分流术来提高血氧饱和度、缓解紫绀和促进肺动脉发育。本文根据研究案例的CT影像图和临床数据,建立了左右
如今,随着AR/VR等产业的发展,人们对计算机图形视觉效果逼真程度的要求日益提高,真实感渲染领域的技术发展迅速,应用潜力巨大。真实感渲染即在计算机上生成模拟现实物体表面
5G移动通信系统将于2020年左右商用,其网络速率将会达到10 Gbps,频谱效率会是4G的10倍,而且需要能够支持海量用户。为实现这一目标,新型多址接入技术、网络架构、调制技术的引入势在必行。正交频分多址(OFDMA)是4G移动网络的核心技术,其接入的用户数会受到可调度的时频资源的限制,已不能满足5G的高要求。稀疏码多址接入(SCMA)技术可以有效解决这一问题,它通过在时频资源之外引入稀疏分布的
近些年来,深度神经网络(DNN)飞速发展,卷积神经网络(CNN)作为DNN中的一个重要网络模型在计算机视觉、自然语言处理、语音识别等领域都取得了令人惊讶的表现。然而,Szegedy等