论文部分内容阅读
电网系统是国家重要的基础设施和民生工程,在国计民生方面发挥着重要作用。而保护设备是整个网络中的重要基础设施,其部件多,结构复杂,负荷影响大,是电网设备的薄弱环节。对保护装置及其运行情况进行统计分析可以提高电网运行的稳定性。如果能通过对故障描述进行合理判定故障等级,可降低手动判定对专业知识和经验的要求,以及人为操作带来的主观因素的影响。然而采集系统中人工记录的信息存在特征表示和数据稀疏两方面问题:(1)故障信息包含大量的专有名词缩写和设备代号,难以用分词对文本进行特征表示。(2)日志简短随意没有规范的描述,带来了短文本的数据稀疏问题。首先,本文从自然语言中的文本特征表示角度,针对分词和实体命名识别难的问题在特征工程时加入“字向量”作为分类器的输入。针对短文本特征稀少的问题采用结合多种建立文本特征表示的方法共同学习。然而,引用“字向量”会导致连续字符的语义丢失。本文对文本分类模型进行分析,针对引入“字向量”的文本建模的缺陷,采用循环神经网络中的长时短记忆单元,来保存语料的连续性,提出一种不依赖分词的短文本分类模型。并对该模型的激活函数等进行分析和实验,提出了超参数选择方案。加入多通道的输入,提高分类准确率,优化了分类模型。并对该模型与其他特征输入的分类模型进行对比测试,验证了本模型的有效性和可靠性。最后根据所采用的分类方法构建分类系统,优化了系统的数据输入,使得接下来的模型学习更加有针对性。此外,还通过优化计算方法,减少神经网络分类系统的计算量并提出增量学习的处理流程,不断的积累数据解决了实践中文本信息匮乏,发挥了新数据的价值,并在训练开销和准确率中取得平衡点,使其能在较少的人工操作下,有效的处理海量的数据。以此为故障等级分类系统提供了新的思路和方法。