基于大数据的系统异常分析

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:toofar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、物联网等新兴技术的应用发展,当今世界已经进入到大数据时代。这些大数据数量庞大,关系复杂,但是当中只包括数量极少的有价值的数据,即异常数据。这些异常数据有些是负面的(比如工业中的警报),有些则是正面的(比如新闻中的好消息)。面对泛滥的数据,研究如何快速准确地从中发现异常数据具有重要的理论和实际意义。本文以大批量数据为研究对象,旨在研究异常数据的发现方法和发现模式。依据数据类型,将研究内容分为针对结构化数据的异常发现方法、针对非结构化数据的异常发现方法,以及异常之间相关性发现方法。论文的主要研究工作包括:1.基于极值析取法的多变量报警预测方法。针对结构化多变量报警数据,提出了基于极值析取法抽取报警特征变量的方法。该方法采用构建的回报函数衡量待测变量与报警的关联度,仿照马尔可夫链的处理方式,逐一从众多监测变量中发现与报警相关的变量集;最后在相关变量集构成的数据样本上,采用机器学习算法构建多变量报警发现模型,以提高预测模型的准确度。将该方法应用到风机覆冰报警问题,构建了风机覆冰预警模型,经真实风机数据检验,该算法能发现与风机覆冰报警相关的变量,并取得很好的预测效果。2.基于特征簇的异常文本辨识方法。针对非结构型文本数据,提出了文本异常特征簇概念;在传统的用于发现文本特征的CHI统计算法中融合了改进的TF-IDF词频权重,在此基础上设计了文本异常特征簇的发现算法。文本异常特征簇对文本分类的描述,相较于文本特征,表达更加准确,可以进一步提升文本分类准确性。最后,在文本特征簇的基础上,构建了文本向量空间分类模型,用于快速准确判断待测文本是否归属于某文本类。以从公网获取的招投标公告数据作为文本数据集,以每位用户关注的数据集作为文本异常类,进而采用上述文本特征簇获取方法获取每位用户的文本特征簇,之后对实时获取的数据采用文本特征向量空间分类模型进行分类,分类结果表明要比传统的文本特征分类准确的多,效果较为理想。3.基于伪时间向量的报警间相关性研究。针对异常之间相关性的研究,以时间序列报警数据为研究对象,采用改进后的凝聚层聚类算法完成报警数据聚类;进而以时间先后为方向,提出了报警在时间维度上伪向量关系;为了度量伪向量关系的强弱,提出了以条件概率量化两类报警间的相关性。以此为基础,设计了报警间矢量相关性挖掘算法,用于从大批量报警数据中统计分析报警类间关联度;采用预设的相关度阈值完成强关联关系取舍。获得的报警间关联关系可以用于预测报警的后向传递方向和传递概率。将该方法应用在某电厂的报警数据中,取得较好的效果。
其他文献
"长臂管辖"已逐渐代替传统军事武器,成为美国维护国际政治影响力和经济利益的重要手段和工具,其滥用对他国经济主权构成了严重威胁。鉴于对"长臂管辖"的研究已经超出传统法律范畴,本文从政治经济学角度进行扩展,基于国际经济竞争、全球治理挑战、大国战略博弈三个维度来解释美国滥用"长臂管辖"的动因,并对其背后的政治、经济和战略考量等进行深入剖析。结合法国遭受"长臂管辖"打压的历史教训,文章系统梳理了近年来法国
目的:观察祛寒除痹汤联合双氯芬酸钠治疗类风湿性关节炎的临床疗效。方法:将类风湿性关节炎60例随机分为对照组和观察组,每组各30例;对照组给予双氯芬酸钠治疗,观察组在对照组治疗的基础上加用祛寒除痹汤治疗,2组均以7 d为1个疗程,共治疗4个疗程;观察比较2组临床疗效,治疗前后患者晨僵时间、关节疼痛数量、关节红肿数量变化及血沉(ESR)、类风湿因子(RF)水平变化。结果:总有效率观察组为90.00%,
蛇发美女美杜莎是古希腊神话中一个复杂矛盾的文化符号,她是众神世界里唯一的凡人之身。集美丽与邪恶为一体的美杜莎形象蕴含了很多的故事和冤屈,给后人留下无限遐想、重述和阐释的空间。南非-博茨瓦纳作家贝西·黑德在自传体小说《权力之问》中将美杜莎改写成黑色皮肤,既揭露了西方文化符号的本质特性——想象和权威化,也揭露了非洲民族主义者趋向极端的疯狂权力欲望和排他性,具有深刻的警示性。
[研究目的]介绍“人-数交互”(human-data interaction HDI)研究国外研究近况,希望引起国内图书情报界同行关注,并参与“人-数交互”研究。[研究方法]搜集、编译国外相关文献,分别从“HDI”的基本概念定义与特定观点、“HDI”研究进展、“HDI”的开放性研究挑战3个视角综述,并对我国图书馆情报界参与“HDI”研究提出若干建议。[研究结论]“HDI”研究有助于全面正确地利用自
随着信息技术的发展和智能终端的普及,人类社会逐渐步入人工智能时代。数据产生与收集的方式发生了巨大变化,呈现出大规模、实时更新、包含噪声的特点。针对当前数据大容量的特点设计高效并且具有鲁棒性的数据降维算法,成为机器学习领域关注的焦点。通过保持数据中条件属性和决策标签之间的不一致性不变,粗糙集属性约简从数据中删除冗余的条件属性以达到数据降维的目的。由于数据规模的不断增大与动态更新,当前的属性约简算法面
自"一带一路"倡议被提出以来,中欧班列作为欧亚大陆互联互通的重要国际运输通道,提升了双边贸易便利化和经贸合作水平,对区域经济高质量发展产生了深远影响。本文以中欧班列开通作为准自然实验,采用多期双重差分法考察"一带一路"倡议背景下国际运输通道对区域经济高质量发展的影响效应。研究发现:(1)中欧班列开通显著推动了区域经济高质量发展;(2)中欧班列通过技术创新效应、产业结构效应、资源再配置效应等机制渠道
自抗扰控制(Active disturbance rejection control,ADRC)作为一种新型的抗扰控制方法,在大量应用研究中表现出了良好的品质,但其理论研究仍有很多问题需要解决。本论文围绕线性自抗扰控制(linear active disturbance rejection controller,LADRC)理论研究的若干问题,进行了如下研究:1.针对LADRC的结构特性,提出基于
绿肥作物是提供生物肥源和培肥土壤的作物,在农业生产上具有提质、增产、肥田、改土等重要作用。文章从绿肥生产发展的必要性、迫切性出发,介绍了内蒙古主要的绿肥作物品种、种植面积、产量等方面的发展概况及绿肥生产现状,阐述了内蒙古主要绿肥作物的栽培利用方式和研究进展,分析了内蒙古绿肥产业的发展潜力,提出了绿肥作物的发展方向和建议,以期为内蒙古绿肥作物的研究和绿肥产业的发展提供参考。
论文基于动态线性化数据模型,针对一般非线性离散时间系统存在扰动、时滞、误差受限、执行器饱和以及系统耦合等问题,研究动态线性化数据模型和离散滑模控制方法相互融合的控制技术。研究中,将动态线性化技术、离散积分终端滑模控制、扰动估计技术、预测控制、预定性能控制及离散扩张观测器等技术有机结合,提出几种基于动态线性化数据模型的离散滑模控制方法。主要的创新性工作总结如下:(1)针对一般非线性离散时间SISO系