论文部分内容阅读
病毒对当前社会造成了一系列的威胁,例如入侵一个安全系统、破坏系统或在没有用户允许的前提下得到用户的敏感信息。这些都危害到了正常的生活,特别是那些新出现的病毒,不能识别出来的病毒。并且现在每年会有上千的新病毒出现,给我们的社会生活造成了严重的威胁。而当前的反病毒系统尝试人为的使用启发式方法检测新的病毒。这种方法不仅耗时而且可能不起作用。因此为了检测未知病毒提出一个高效的、自动的基于FSVM算法的K-F模型。K-F模型从三个方面对已有的病毒检测模型进行改进。首先针对模型的输入数据维度过高对数据进行预处理工作,因为如果数据维度过高会造成学习算法训练时间过长,效率低下。本文的特征数据是从PE文件中提取的静态特征,对这些特征进行规范化处理,然后采用特征处理算法进行降维处理,形成新的低维特征数据集,将其作为训练算法的输入从而加快模型建立速度。其次针对数据过多使用KFCM进行样本精简,因为数据太多会造成训练时间过长,并且噪声数据会降低模型准确率。本文采用KFCM对正常样本和病毒样本分别进行数据精简,不仅可以除去不是支持向量的样本减少样本数量而且去除部分噪声点,从而提高模型准确率和加快FSVM的学习速度。最后针对FSVM算法对噪声点和离群点敏感而导致模型准确率降低的缺点,提出一个新的隶属度的确定算法CLWD。CLWD是根据聚类中心与样本局部紧密度计算样本的隶属度,可以有效地将离群点和噪声点区分出来,从而更有效的提高模型的准确率。最后通过实验验证了PCA特征抽取算法更适合PE文件特征,并且验证了新的CLWD隶属度确定算法的合理性和有效性,能有效的去除噪声点和离群点,最后验证了新提出的未知病毒检测模型K-F性能良好,且对于未知病毒的检测有较高的准确率。