面向故障日志的短文本分类方法研究与实现

来源 :南京师范大学 | 被引量 : 6次 | 上传用户:sulinpep
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电网系统是国家重要的基础设施和民生工程,在国计民生方面发挥着重要作用。而保护设备是整个网络中的重要基础设施,其部件多,结构复杂,负荷影响大,是电网设备的薄弱环节。对保护装置及其运行情况进行统计分析可以提高电网运行的稳定性。如果能通过对故障描述进行合理判定故障等级,可降低手动判定对专业知识和经验的要求,以及人为操作带来的主观因素的影响。然而采集系统中人工记录的信息存在特征表示和数据稀疏两方面问题:(1)故障信息包含大量的专有名词缩写和设备代号,难以用分词对文本进行特征表示。(2)日志简短随意没有规范的描述,带来了短文本的数据稀疏问题。首先,本文从自然语言中的文本特征表示角度,针对分词和实体命名识别难的问题在特征工程时加入“字向量”作为分类器的输入。针对短文本特征稀少的问题采用结合多种建立文本特征表示的方法共同学习。然而,引用“字向量”会导致连续字符的语义丢失。本文对文本分类模型进行分析,针对引入“字向量”的文本建模的缺陷,采用循环神经网络中的长时短记忆单元,来保存语料的连续性,提出一种不依赖分词的短文本分类模型。并对该模型的激活函数等进行分析和实验,提出了超参数选择方案。加入多通道的输入,提高分类准确率,优化了分类模型。并对该模型与其他特征输入的分类模型进行对比测试,验证了本模型的有效性和可靠性。最后根据所采用的分类方法构建分类系统,优化了系统的数据输入,使得接下来的模型学习更加有针对性。此外,还通过优化计算方法,减少神经网络分类系统的计算量并提出增量学习的处理流程,不断的积累数据解决了实践中文本信息匮乏,发挥了新数据的价值,并在训练开销和准确率中取得平衡点,使其能在较少的人工操作下,有效的处理海量的数据。以此为故障等级分类系统提供了新的思路和方法。
其他文献
随着社会的发展,基于位置的服务(Location-based Service)得到了广泛的应用,由此产生了各种复杂的空间文本数据,传统的数据库查询技术无法进行有效处理,因此如何提供各种高效
火焰、烟雾和焰火等自然界典型的不规则模糊景物,很难采用传统的建模方法进行模拟。粒子系统是迄今为止模拟和生成模糊景物最为成功的一种模型。焰火的品种繁多,色彩炫丽多变
人脸的检测与识别在诸如视频监控和人脸图像数据库管理等应用中发挥着关键作用。本文研究了人脸识别和检测技术,并为之开发了相应的算法。在人脸识别中,所使用的算法是主成分
随着信息技术的发展,信息技术已经成为支撑教育教学的主要手段,从教师备课、上课、到学生学习、再到学校管理,以及行政部门对学校的管理等等方面都已经离不开信息技术。围场
教育信息化背景下,在线学习平台得到了广泛利用,随之增长的还有学习者在线学习过程中所产生的数据,这些海量数据让学习者面临着“信息过载”和“信息迷航”的困境。如何在海
基于稀疏表示的分类算法在多种模式分类任务上都展现出了巨大的潜能,如人脸识别、动作识别、医学图像分类等,受到了国内外专家学者的广泛关注。本文主要针对三种不同的稀疏表
随着网络、数据库和IT技术的迅猛发展,在许多应用领域,比如互联网管理系统、实时传感器信号分析系统、电信系统和金融系统等,生成数据的速率越来越快,从而产生了一种海量、高
随着工业化、信息化的高速发展,两化融合逐步成为我国产业发展必由之路,与两化融合紧密相关的生产性服务业在我国发展迅速。生产制造执行系统(MES)是与生产过程连接的企业信
当今,伴随着环境日益恶劣和资源日益匮乏,节能减排已经成为炙手可热的话题。路灯作为每个城市大范围和阶段性使用的照明设施,也应该加入到节能减排的大队伍中。根据我国大部
研究目的:骨血管分布密集且广泛,在骨的生长发育中,骨血管不仅提供必需的氧和营养物质,而且通过调节各种骨细胞和血管细胞间的相互作用,为骨形成提供必要的刺激信号。局部血