网络日志数据中条件因果挖掘算法的优化研究

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:tashon123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络操作中收集了大量的系统日志数据,找出精确的系统故障成为重要的研究方向。提出一种条件因果挖掘算法(CCMA),通过从日志消息中生成一组时间序列数据,分别用傅里叶分析和线性回归分析删除大量无关的周期性时间序列后,利用因果推理算法输出有向无环图,通过检测无环图的边缘分布,消除冗余关系得出最终结果。仿真结果表明,对比依赖挖掘算法(DMA)和网络信息关联与探索算法(NICE),CCMA算法在处理时间和边缘相关率2个主要性能指标方面均有改善,表明CCMA算法在日志事件挖掘中能有效优化处理速度和挖掘精度。
其他文献
基于k-最近邻(kNN)的分类方法是实现各种高性能模式识别技术的基础,然而这些方法很容易受到邻域参数k的影响,在完全不了解数据集特性的情况下想要得出各种数据集的邻域是比较困难的。基于上述问题,介绍了一种新的监督分类方法:扩展自然邻居(ENaN)方法,并证明了该方法在不人为选择邻域参数的情况下提供了一种更好的分类结果。与原有的基于kNN需要先验k的方法不同,ENaN方法在不同的阶段预测不同的k值。因此,无论是在训练阶段还是在测试阶段,ENaN方法都能从动态邻域信息中学习到更多的信息,从而提供更好的分类结果。
针对传统语言模型的词向量表示无法解决多义词表征的问题,以及现有情感分析模型不能充分捕获长距离语义信息的问题,提出了一种结合BERT和BiSRU-AT的文本情感分类模型BERT-BiSRU-AT。首先用预训练模型BERT获取融合文本语境的词向量表征;然后利用双向简单循环单元(BiSRU)二次提取语义特征和上下文信息;再利用注意力机制对BiSRU层的输出分配权重以突出重点信息;最后使用Softmax激励函数得出句子级别的情感概率分布。实验采用中文版本的推特数据集和酒店评论数据集。实验结果表明,结合BERT和B
警察与强盗博弈是一个图搜索问题,解决该问题的关键是确定能成功捕获强盗的最少警察数。在零可视警察与强盗博弈中强盗不可见:任意时刻警察都不知道强盗所在位置。通过建立顶点清理模型对三维网格图的性质进行分析,将三维网格图的顶点集划分成2个子集,导出划分中较小子集与边界的关系,并利用划分中的结论,给出三维网格图中最少警察数的下界。结合图搜索的单调性原则,给出一种可行的单调性搜索策略,确定三维网格图中最少警察数的上界。最后提出一种在三维网格图中最少警察数范围内可行的搜索算法。
针对文本数据中含有大量噪声和冗余特征,为获取更有代表性的特征集合,提出了一种结合改进卡方统计(ICHI)和主成分分析(PCA)的特征选择算法(ICHIPCA)。首先针对CHI算法忽略词频、文档长度、类别分布及负相关特性等问题,引入相应的调整因子来完善CHI计算模型;然后利用改进后的CHI计算模型对特征进行评价,选取靠前特征作为初选特征集合;最后通过PCA算法在基本保留原始信息的情况下提取主要成分,实现降维。通过在KNN分类器上验证,与传统特征选择算法IG、CHI等同类型算法相比,ICHIPCA算法在多种特
多峰优化问题是一类存在多个全局最优解的复杂优化问题,不仅要求算法找到尽可能多的最优解,而且要求算法尽可能提高所找到的最优解的精度.演化计算方法是求解这类问题的重要手段.但是传统演化计算方法面临多样性和收敛性两个方面的挑战.针对这两个方面的挑战,提出了一种通过探索层和精炼层协同演化的双层协同差分进化算法.在探索层中,每个个体作为一个分布式搜索单元探索并定位到一个最优解.在协同过程中,探索层引入个体寿命机制,将耗尽寿命且定位到最优解的个体存入一个外部存档,然后重新初始化这些个体以找到更多的最优解.在精炼层中,
对大规模数据流统计的问题进行了研究,针对大流统计的典型结构Elastic Sketch替换策略中存在的问题进行优化,优化策略解决了冷流被误判为热流插入重部的问题。针对重部中保存的不一定是最大流的问题进行优化,提出了基于最大值和组相连的替换策略,保证了存储在重部的一定是最大的流,提高了大流统计的精度,同时大大降低了热碰撞发生的概率。相比于传统的测量统计方法,在提高了测量精度的同时,减少了内存占用。
远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声。针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子划分为包(bag)级,利用同义词词林对人物关系触发词做词频统计,确定最大词频候选关系和次大词频候选关系,再结合特定的人物关系判别规则判断人物关系。对bag判断出某个人物关系后,再对其进一步进行多关系预测,最终得到人物关系预测结果。在大规模的中文远程监督人物关系抽取公开数据集(IPRE)上的实
滚动轴承是旋转机械内常出现问题的重要部件,其故障情况复杂且难以诊断。基于小样本故障数据学习环境,针对小样本学习在提取真实特征值与目标特征值时有较大差异且泛化能力较弱的问题,提出一种采用半监督变分自编码器与LightGBM分类模型相结合的小样本学习模型LSVAE,并利用基于高斯过程的贝叶斯优化改进算法对LightGBM的超参数进行了优化处理,有效地解决了小样本学习性能不稳定,提取特征能力弱,过拟合等问题,并在凯斯西储大学发布的轴承实验数据集上进行了对比实验,结果表明LSVAE模型在面向小样本数据空间时有着更
可擦除项集挖掘是从大规模产品数据库中挖掘出低利润项集,以解决厂商财务危机的方法。传统挖掘方法只处理静态产品数据库,在提取可擦除项集时忽略项本身的权值。为解决现有可擦除项集挖掘算法考虑条件单一、效率低下的问题,提出一种有效的在增量数据集上挖掘加权可擦除项集的算法WELI。该算法综合考虑了数据不断积累和项具有不同重要性的因素,采用简洁的列表结构减少内存消耗,利用权重条件进行项集修剪,并结合包含索引和差集思想简化增益的计算过程,以实现高效的增量挖掘操作。实验表明:就运行时间和内存消耗而言,该算法在稠密数据集和稀
量子优化是量子计算领域近年来颇受关注的一个研究分支,主要研究如何利用量子计算加速优化问题的求解.根据优化问题的变量是否连续分类梳理量子优化算法,侧重介绍连续变量优化算法.通过对现存工作的调研梳理得到一些观察:1)5~20年前的研究主要集中在离散变量的量子优化技术,近5年的研究则更关注连续变量的量子优化技术;2)量子优化使用的主要基础技术都是10~20年前提出的,在基础技术方面需要进一步革新;3)量子优化算法相比于对应的经典算法通常在理论上有加速优势,既有体现在时间复杂度的加速,也有体现在查询复杂度的加速,