论文部分内容阅读
随着现代化生产规模越来越大,生产过程中会产生越来越多的日志文本,因此,在生产过程中进行日志分析是必不可少的。同时,这些日志文本具有数据量大、批次产生、日志内容复杂、分析成本高等特点。引入机器学习技术进行日志分析,对日志问题的定位与解决提供数据支撑,可以大大减少实际分析人员的工作量与分析难度。主要研究成果包括以下四点:(1)根据实际应用场景及日志文本特点,总结出日志文本具有非结构化、不平衡与单一分类算法过拟合的问题,针对以上问题,提出一套基于集成学习以解决不平衡性的日志分析模型。(2)针对日志文本的非结构化与不平衡性的特点,且现存的不平衡处理方法仍有改进的空间,本文提出一种改进的不平衡性算法KS-SMOTE,利用Word2vec进行初级向量表示,为了向量能够提取前后向的词关系,引入双向LSTM,通过Bi-LSTM得到特征向量,利用SVM对数据集进行分类,对噪声样本进行识别并予以剔除,进而对错误分类和正确分类的样本进行SMOTE算法处理,根据聚类算法组合出新的样本集。实验结果表明,KS-SMOTE的分类效果优于SMOTE算法。(3)针对传统的单一分类算法遇到的过拟合问题,本文提出一种改进的三层Stacking算法,在原始的Stacking算法的基础上增加一层初级层,通过改变层级之间的输入属性表示方法,放大样例数,降低特征维数。并通过与单一分类算法、原Stacking算法进行对比,实验表明三层Stacking算法在准确率、查准率和F1值上都优于其他两种算法。通过之前的分类结果,利用文本相似度算法,找到该类问题中相似的日志失败原因,选用ItemCF的协同过滤算法进行失败原因推荐。(4)将日志分析方法应用在实际工程中。路由器测试中会产生大量的日志文本,为了提升精度并使文本分析模型能更好的符合项目需求,本文提出一套基于集成学习以解决不平衡性的日志分析系统,以显示日志分析方法的工程有效性。