论文部分内容阅读
随着互联网技术的发展,人们对信息安全也有了更高的要求,现有的身份识别方式包括密码,口令等已经满足不了人们的需求,密码被盗现象屡见不鲜,于是出现了一些新的基于生物生理特征的身份识别方式,比如基于指纹,音频,虹膜等,虽然这些生物识别技术已经在现实生活中得到了应用,但是这些技术或多或少是有一些缺陷存在的,比如现如今出现的指膜就可以破解这种指纹识别方式,而且这些生物识别技术都需要大量昂贵的设备进行辅助,不利于大规模的普及,而基于击键动力学的身份识别技术弥补了这方面的缺陷。本文研究的目的是在前人研究的基础上,找到一种精确度更高,训练耗时更短的算法,并基于此算法设计一个功能较为完备的身份识别系统。本文设计实验证明了孤立森林算法相比其他异常检测类算法精确度(FAR,FRR,AUC)更高,其中AUC最高达到了0.98,训练耗时为150ms左右。同时本文对孤立森林算法进行了改进,在孤立森林算法预测阶段,在原有的归一化异常分数上增加了惩罚项,实验表明改进后的算法在精确度上比原算法更高。本文也对孤立森林算法的三个重要参数,即子样本数量,子树数量,异常分数阈值进行了分析,得出了在样本数量比较少的情况下,异常分数阈值对于算法的精确度的影响是最大的,这也为系统的设计提供了算法参数的理论基础。在特征工程方面,本文还在原有特征的基础上生成了平均时间特征和标准差时间特征,实验表明,在增加平均时间特征和标准差时间特征之后,精确度进一步提升。本文还根据改进的算法搭建了包括数据采集,特征处理,模型训练和预测以及自学习等模块的基于击键动力学的身份识别系统。本文设计的系统基于B/S架构,即前端浏览器采集用户的按键时间序列样本,后端进行模型的训练和样本的预测,同时针对用户的按键节奏随时间的推移而变化这一现象,增加了自学习的后处理步骤,能够及时地捕捉到用户按键习惯的变化。同时本文还对系统进行了测试,结果表明系统的在准确度和耗时方面是能够达到要求的,用户体验度良好,具有一定的实用价值。