基于深度学习的电力工单文本挖掘

来源 :南昌大学 | 被引量 : 0次 | 上传用户:pupuaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电力是国家发展的命脉,电力行业运行的各个环节都会产生大量的数据信息,对这些电力数据进行挖掘意义重大。针对传统机器学习方法人工提取电力数据特征容易丢失特征信息,导致挖掘效果差的问题,本文结合当前热门深度学习方法对95598平台产生的电力工单文本进行挖掘分析。主要工作如下:首先,收集了浙江省95598电力工单文本数据,删除其中一些空白、乱码等工单,将剩下的数据进行标注生成训练标签,为后续的文本挖掘做准备;阐述工单挖掘的文本预处理流程和文本向量化方法;介绍工单文本挖掘过程中使用的深度学习方法。其次,对电力工单文本进行可视化挖掘:采用TF-IDF算法对电力工单文本关键词进行提取,并通过词云、图表等方式进行可视化展示。构建了基于BERT-TextCNN的分类模型,对电力工单文本进行挖掘。利用BERT模型的双向Transformer编码结构学习电力工单文本中前后文语义信息,对电力工单文本进行向量化表示,结合深度学习模型TextCNN自动提取特征的能力,解决传统机器学习方法人工提取特征准确率低的问题。对Word2vec-TextCNN模型和BERT-TextCNN模型进行实验对比,证明了采用BERT模型进行文本向量化能更好地提升电力工单分类的准确率。以准确率、召回率、F1值作为模型分类效果的评价指标,将BERT-TextCNN模型和传统机器学习方法的训练结果进行对比评估,验证了深度学习方法在电力文本挖掘中的优越性,可以解决传统机器学习方法在电力文本挖掘中存在的问题。然后,建立了融入注意力机制的Att-Bi-LSTM分类模型,对客服工单中用户投诉类热点话题进行分析挖掘。Bi-LSTM的双向门控单元可以有效学习工单文本的全局信息,提高分类精度。融合的注意力机制对不同时刻的信息序列分配相应的权重,可以剔除工单文本中冗余信息,优化文本特征,进一步提升对投诉工单的分类效果。实验结果表明,构建的Att-Bi-LSTM模型在投诉工单分类中总体识别准确率在94%以上,在各类型投诉工单中识别效果均优于未融入注意力机制的其它模型,能够实现投诉工单文本的精准高效分类。最后,建立在投诉工单文本进行挖掘分析的基础上,将Att-Bi-LSTM模型应用于投诉工单可视化系统中,完成了投诉工单文本的可视化分析,为文本挖掘在电力领域的应用开拓了新的思路,提升了电网的信息化、智能化水平。
其他文献
腔光力学是一门集量子光学和机械科学等学科于一体的交叉学科,其主要研究的是光学(微波)场与机械运动物体之间的相互作用。腔光力系统无论是在基础研究还是在实际应用中都受到广泛的关注,在生物传感、弱力探测和量子信息处理等领域都具有极其重要的应用价值。近年来,受益于微纳制造业的迅速发展,腔光力系统的制备也得到了不断优化,其日益成为研究宏观量子效应和实现有效量子操控的理想平台。众所周知,由于机械振子在热环境中
学位
近些年来,随着研究的深入进行,全双工中继通信系统不仅可以扩大通信服务的覆盖范围,而且还可以进一步提升系统的频谱利用效率和通信的数据传输速率,受到了全世界研究学者的广泛关注。全双工中继通信系统能够在相同频率和时间内,同时发送信号和接收信号,因此与半双工中继通信系统相比能够成倍地提高频谱效率。但是全双工中继通信系统的中继收发端之间存在着信号泄漏,这会导致自干扰的产生,自干扰使得中继通信系统的性能严重恶
学位
天线调谐(阻抗匹配)作为无线通信设备的关键性技术之一,不仅关系到通信信号的传输效率,同时也是减少传输线路反射电流、保障系统正常工作的有效途径。星载低频频率步进雷达是一台低功率、超宽带的空间等离子体探测系统,采用500米偶极子天线,覆盖30 k Hz~3 MHz以5%步进的发射频率范围。在大部分频点,固定尺寸的偶极子天线都处于阻抗失配状态,严重影响信号传输质量以及系统工作稳定性。另一方面,天线处于不
学位
在临床实践中,由于磁共振成像可通过使用不同对比度设置生成多张磁共振图像,从而为临床诊断提供丰富的多对比度信息。然而,过长的扫描时间增加了生理运动的敏感性,这将会降低成像效果。因此,随着扫描次数的增加,在不牺牲图像结构信息的前提下,迫切需要可以缩短扫描时间的技术来降低成本、减少病人的不适。压缩感知可以通过减少直接由机器获得的K空间(即傅里叶空间)测量数据来加速磁共振成像。压缩感知理论研究表明,如果经
学位
超声成像是目前临床运用最广泛的医学成像技术之一,具有对人体伤害小,操作过程较为简单等特点,然而随着新冠肺炎(COVID-19)在全世界的流行,医护人员在超声检查中需要频繁与感染病人进行问诊接触,给医护人员带来极大的感染风险。为了降低医护人员感染COVID-19的几率,降低医护人员工作量,急需智能超声机器人代替医护人员对病患进行超声扫描工作。然而现有的智能超声机器人往往难以实现超声扫描的自动化,同时
学位
与单基合成孔径雷达(Synthetic Aperture Radar,SAR)相比,双基合成孔径雷达(Bistatic Synthetic Aperture Radar,Bi SAR)的灵活构型使其能够从照射区域获得更丰富的散射信息。其中,BFSAR(Bistatic Forward-looking Synthetic Aperture Radar,BFSAR)是一种重要的双基成像模式,具备前视成
学位
智能电网的发展使得传统配电网日益成为一个典型的配电信息物理系统(Cyber Physical Distribution System,CPDS)。实体的物理电网与信息技术、通信技术等所支撑起来的信息网络高度融合,提高了配电网的运行管理水平,同时信息网络的故障也通过这种互相耦合的关系传递到物理电网。因此对CPDS的可靠性评估不再局限于仅考虑物理网络,探求CPDS中信息网络与物理网络间的交互作用机理,
学位
近几年,卷积神经网络(CNN)已是深度学习中的各类研究的首选网络。受益于CNN强大的特征表示能力,早期的模型通过基础CNN进行人群计数研究,与传统的手工特征相比,获得了显著的性能改善。目前,更加有效的基于全卷积网络(FCN)的模型成为人群计数研究中的主流模型。然而目前的深度模型,在处理尺度变化问题时,仅粗略的分为几个等级,在获取人群的特征时,直接使用VGG16提取特征。这将导致在应对复杂背景和尺度
学位
X射线CT(Computed Tomography,简称CT)是临床诊断中广泛使用的医学影像学检查方式,其辐射剂量大小备受人们关注,患者所接受的高剂量CT辐射会增加潜在的患病风险,例如增加患癌症的可能性。针对如何在尽可能低的扫描剂量条件下获取与常规剂量CT质量相近的CT图像,即低剂量CT(Low-dose CT,简称LDCT)的研究显得格外重要。因此,使用LDCT进行临床研究有很强的研究意义,是X
学位
快速发展的量子算法和量子计算机技术,给现有大部分依赖于计算复杂性的传统密码算法带来了巨大的安全威胁。量子密钥协商协议不再依赖数学上的计算复杂度保证其安全性,利用量子比特承载密钥信息,一旦检测到量子比特在传输过程中遭受到恶意窃听便中止协议。量子密钥协商协议能够抵御拥有完全量子能力的窃听者的攻击,保证信息论意义上的无条件安全性。半量子概念有效地降低量子通信的运维成本,有利于促进量子密钥协商的实际应用。
学位