基于机器学习的日志分析研究与应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:lkm6839257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代化生产规模越来越大,生产过程中会产生越来越多的日志文本,因此,在生产过程中进行日志分析是必不可少的。同时,这些日志文本具有数据量大、批次产生、日志内容复杂、分析成本高等特点。引入机器学习技术进行日志分析,对日志问题的定位与解决提供数据支撑,可以大大减少实际分析人员的工作量与分析难度。主要研究成果包括以下四点:(1)根据实际应用场景及日志文本特点,总结出日志文本具有非结构化、不平衡与单一分类算法过拟合的问题,针对以上问题,提出一套基于集成学习以解决不平衡性的日志分析模型。(2)针对日志文本的非结构化与不平衡性的特点,且现存的不平衡处理方法仍有改进的空间,本文提出一种改进的不平衡性算法KS-SMOTE,利用Word2vec进行初级向量表示,为了向量能够提取前后向的词关系,引入双向LSTM,通过Bi-LSTM得到特征向量,利用SVM对数据集进行分类,对噪声样本进行识别并予以剔除,进而对错误分类和正确分类的样本进行SMOTE算法处理,根据聚类算法组合出新的样本集。实验结果表明,KS-SMOTE的分类效果优于SMOTE算法。(3)针对传统的单一分类算法遇到的过拟合问题,本文提出一种改进的三层Stacking算法,在原始的Stacking算法的基础上增加一层初级层,通过改变层级之间的输入属性表示方法,放大样例数,降低特征维数。并通过与单一分类算法、原Stacking算法进行对比,实验表明三层Stacking算法在准确率、查准率和F1值上都优于其他两种算法。通过之前的分类结果,利用文本相似度算法,找到该类问题中相似的日志失败原因,选用ItemCF的协同过滤算法进行失败原因推荐。(4)将日志分析方法应用在实际工程中。路由器测试中会产生大量的日志文本,为了提升精度并使文本分析模型能更好的符合项目需求,本文提出一套基于集成学习以解决不平衡性的日志分析系统,以显示日志分析方法的工程有效性。
其他文献
目的加强护理文书的管理.提升文书书写的各方面的要求,确保其记录的客观,保证文书的写实和遵循科学的方法。方法通过对在架病历的检查,仔细发现其中存在的问题,细致的予以分析,采用
STP真空绝热板龙骨外墙内保温系统具有单位质量轻、施工工序简单、作业安全性高等特点,是目前综合优势较多的一种外墙内保温系统.介绍了该保温系统的构造原理、工艺流程与质
目前在我国基础教育中以教师为中心的探究式学习方式使用比例偏多。致使学生创新意识匮乏、创新能力萎缩.创新对大多数学生来说,不仅是“不为也”.而且也是“不能也”.所以在初级
一、引言我国新一轮基础教育课程改革实施已有十年.效果如何?借助辛德对课程实施的“忠实观”理解:假定所期望的课程改革结果是忠实于原计划的[1].即当教师执行了规定的课程变革,
近年来,随着工业化进程的发展,我国污染源VOCs排放量巨大,对环境造成了严重的破坏,也对人体健康构成了威胁。低温等离子体和催化剂协同处理VOCs废气结合了等离子体与催化氧化
高中思想政治必修1《经济生活》现行教材,2008年3月由人民教育出版社修订出版,知识体系较为科学、合理,体现了编者较高的理论水平。但智者千虑,总有一疏,该版教材存在着一些缺陷和
上海城市环境项目APL三期子项目青草沙原水南汇支线工程QNZ-C12标工程地下顶管顶进轴线,需穿越诸多钢筋混凝土承载桩基础,有一定技术难度.以此为背景,通过风险源分析、顶管机
目的通过髂骨形态计量学参数变化的检测,探讨骨化醇对脊髓损伤后骨质疏松的治疗效果及机理。方法选择脊髓损伤截瘫患者45例.随机分为2组,1组15例为服用药物实验组;2组30例为未服
甘乐能为商品名称,其通用名称为重组人干扰素a-2b注射液。我科自2005年起应用甘乐能治疗慢性乙型肝炎,慢性丙型肝炎等,取得较好疗效。现将护理体会报告如下:
砂土可搅拌性研究是新近提出的研究课题,对岩土工程设计与施工具有重要意义.在研究中首次尝试利用属性数学方法建立了砂土可搅拌性分级模型,并用实例验证了该模型的合理性,冀