基于预训练模型的日志模板提取方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kevin_fisker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日志是记录软件系统内部组件之间交互的重要信息,能够反映系统的运行状态,在系统的管理和维护中发挥着重要作用。随着系统规模的不断扩大,日志数量呈爆炸式增长,仅靠人工检查日志的传统方法难以满足当前的要求,日志的自动化分析已被视为系统运维的关键技术之一。日志模板提取是日志自动化分析的关键环节,其对非结构化、半结构化的日志进行处理,将日志转换为结构化形式,用于进一步分析。当前已有研究学者从不同角度开展了日志模板提取方法研究,基于深度学习的日志模板提取方法成为主流。然而,现有工作存在以下局限性:1)现有日志模板提取方法需要大量人工标注的日志数据集进行模型训练,在训练数据较少时无法充分利用深层网络的性能;2)模型对日志中各词是否为模板词进行判别,输出词标签序列,需要依赖额外的后处理以生成日志模板。针对上述问题,本文聚焦于预训练模型对深层网络的充分利用,提出了基于预训练模型的日志模板提取方法,并采用端到端网络简化日志模板提取处理流程,提高了模型的学习速度与日志模板提取的准确度,降低了模型训练与预测的时间消耗。本文的主要工作与贡献如下:针对现有日志模板提取方法受限于日志训练集大小、无法充分利用深层网络性能的问题,提出了基于LUKE预训练模型的日志模板提取方法,采用LUKE模型作为文本表示模型进行参数初始化,优化了日志中各词与其向量表示的转换;为充分获取单词之间的上下文表示,提出了模板感知的自注意力机制,并采用CRF模型根据上下文表示进行模板词判别。实验结果证明了相较于现有方法,提出的基于LUKE模型的日志模板提取方法收敛性更好,在较少的日志训练集上实现了较高的日志模板提取准确率,并在相同条件下降低了模型的训练与预测时间消耗。针对现有日志模板提取方法依赖额外后处理生成日志模板的问题,提出了基于BART预训练模型的端到端日志模板提取方法,采用BART模型作为文本表示模型,实现了上下文表示的获取与日志模板预测的生成,去除了现有方法的模板词判别阶段,简化了日志模板提取的处理流程;针对BART模型在日志模板提取任务中存在的词汇表之外的词处理问题,提出了基于Pointer-Generator模型的优化方法,限制了BART模型进行日志模板生成的词汇表。实验结果证明了所提出的基于BART模型的日志模板提取方法在效果上与基于LUKE模型的日志模板提取方法相近,其虽然在模型的学习速度上稍有损失,但进一步降低了预测时间消耗。基于所提出的两种日志模板提取方法,本文设计了基于预训练模型的日志模板提取系统,实现了日志采集与存储、日志模板提取、日志查询与展示等功能。本文将系统应用于实验室物联网平台项目中,验证了所提方法的可行性与系统的可用性,对日志自动化分析有一定的促进作用。
其他文献
恩格斯在历史唯物主义基础上通过对“两种生产”理论的经典阐述破解了人类社会历史发展之谜,揭示了人类社会制度发展、婚姻家庭形式演变的一般规律,是当今坚持辩证唯物主义立场看待经济社会发展问题的重要理论资源。以历史唯物主义为基础,探究“两种生产”理论中国化的最新理论成果。并将其合理应用到中国历史发展的长河中,一方面有利于丰富“两种生产”理论本身,弥补马克思唯物史观史前史的空白,夯实历史唯物主义根基。另一方
学位
随着国家十四五规划的提出,我国比历史上任何时候都迫切的需要科学技术创新,这也是我国创新驱动发展战略和完善国家创新体系的必然要求。在国家重大需求导向下,高等院校作为国家科学研究的主力军,获得国家科技研发投入显著增加。落实国家科研经费指导精神,制定符合当前管理环境下的科研经费管理办法已成为高校新时代发展重要任务。X大学作为国家双一流建设高校,在现行管理方式下,需要按照国家指导精神结合自身实际发展进行不
学位
新中国成立初期是中国思想文化界发生剧烈变革的时期。1949年中华人民共和国成立后,中国共产党作为执政党走上政治舞台。党通过对干部进行主流意识形态教育,最终实现了干部思想上的统一,凝聚了干部共识,推动了新中国的发展。中国共产党历来重视干部的主流意识形态教育,新中国成立以前非常重视干部的思想问题。1949年后,中国处于稳定政权、恢复经济的重大转型期,中国共产党要在继承革命时期干部主流意识形态教育的基础
学位
统一完备的国家责任制度有利于保障国际争端的和平解决、国际交流合作的有序开展,解决国际争端有求于国家责任制度,它是保证国家遵守国际条约、履行国际义务的重要法律制度。国家责任的承担来自于对国际法律的破坏,国家公共卫生责任的产生就是基于对国际卫生法的违反。此次新冠疫情的爆发显露出了国际上国家公共卫生责任的缺陷,在应对疫情的过程中许多国家行为的合理性与合法性受到各界的广泛讨论。抗击疫情离不开各国的积极应对
学位
随着啁啾脉冲放大技术(Chirped Pulse Amplification,CPA)的应用,超强超短激光得以出现并获得持续发展,这为人类提供了前所未有的极端物理条件。目前,随着世界各地大型拍瓦激光装置的建成,激光强度可以达到1023W/cm~2,在此条件下激光与等离子体相互作用进入相对论非线性范畴,许多新物理现象浮现出来,如相对论电子加速,超短超亮伽马射线辐射,正负电子对产生等等。超强超短激光驱
学位
无人机作为一种高机动性、高灵活性的综合智能体,已经被广泛地应用在各行各业以及日常生产生活当中。伴随着人工智能技术以及图像处理技术的快速发展,计算机视觉技术已经成为了无人机在导航与控制方面一项不可或缺的重要技术。针对无人机平台的计算机视觉技术而言,视觉目标跟踪算法是诸如自主跟随飞行、自主着陆等无人机关键技术的底层算法。本文主要围绕针对无人机平台的目标跟踪算法优化以及目标跟踪算法在无人机任务中的实际应
学位
为了满足特种机器人在短时间、高速度、高爆发性的运动特性需求,本文在脉冲活塞型动力机原结构方案的基础上重点进行结构改进,并进行动力学分析、点火控制研究、样机实现及实验方案设计,这种新型脉冲活塞型动力机以固体燃料为动力源,突破了常规机器人驱动的限制,为特种机器人的运动需求提供了一种新型的动力能源。首先,论文介绍了原脉冲活塞型动力机的结构特点、工作原理,研究分析了原结构方案上存在的主要问题,并针对其排闭
学位
与IGBT相比,SiC MOSFET可以实现更快的开关速度,但同时会带来关断电压过冲尖峰、串扰与高频振荡等问题。相较于通过调节驱动电阻来权衡开关损耗与开关电压过冲振荡的传统SiC MOSFET栅极驱动电路(Conventional Gate Driver),能够动态改善SiC MOSFET开关特性的有源栅极驱动电路(Active Gate Driver)极具研究价值。本文针对大功率SiC MOSF
学位
随着软件产业的不断发展,软件测试对于软件开发产生着难以忽视的影响,软件测试能有效地保证软件质量。测试用例是软件测试的核心内容,手工设计测试用例效率较低,而自动生成测试用例能够有效地使软件测试效率提高。UML是标准化的统一建模语言。从UML模型中提取信息可以用于生成测试用例。基于UML模型生成测试用例的方法也逐渐变成了软件测试中的热门研究方向。本研究分析了UML各动态模型图的优势与缺陷,并选择基于U
学位
健康在人类社会长久稳定的发展中具有十分重要的作用。它在我国各个发展阶段中都是一个无法绕开的,必须正面面对的永恒话题。新时代,一方面影响和威胁人民健康的各类因素变得更具广泛性和复杂性。另一方面,人民群众对健康的需求更具个性化且始终处于不断地变化状态。为了更高质量地发展卫生健康事业,习近平对此进行了深入思考。正是在思考与解答卫生健康领域出现的种种问题的过程中,习近平卫生健康观得以形成。习近平卫生健康观
学位