基于定性数据聚类的孤立森林算法

来源 :南昌大学 | 被引量 : 0次 | 上传用户:qwc198762
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,数据的获取效率不断提升,如何从海量数据中识别出与其他样本不同的离群点是生产活动中需要考虑的重要问题。现在已经有许多不同的异常检测方案被提出,用于解决离群点识别这一问题,但是这些方法都有不同的缺陷。例如需要足够的异常样本进行训练或者过于依赖参数选择等。而孤立森林算法相比于其他异常检测算法具有时间复杂度低、只需要小数据集进行训练、参数选择少等优势,但同时也存在训练过程中随机选取属性对样本进行划分导致检测结果可能不准确的问题。为了解决上述问题,本文通过粗糙集理论,利用粗糙集中判断不同属性的重要性的方法,与孤立森林算法结合,研究了一种基于定性数据聚类的孤立森林算法。具体工作如下:(1)在孤立森林算法中。选择属性然后对样本进行划分的过程是采用完全随机的方式。使用这一方法构造孤立树可能会忽略对结果影响程度大的属性,而选择对结果影响程度低的属性,导致检测结果的不准确。本文选择了定性数据聚类中利用聚类结果计算不同属性在信息系统中重要性的方法,筛选出相对重要的属性用于构造孤立树,并通过实验证明本文方法的效果。(2)为了证明本文方法在实际问题中的效果,使用了一个真实的信用卡数据集,用本文提出的方法检测其中的欺诈交易。并且在这个过程中,对于不同量级的数据集,本文方法对计算属性重要性的过程做出了一部分改进。通过将数据集切分成多个子数据集,然后分别采样计算在子数据集上的重要性,综合多个结果计算出属性重要性。最后经由实验证明了本文方法的有效性。
其他文献
近年来,病理图像的评估在癌症治愈与研究中扮演着十分重要的角色。目前医院的评估方法主要分为两种:一种是病理科医生凭借经验进行评估,这种方法效率比较低,且评估结果经常受到医生主观性的影响而不一致;另外一种是基于人工智能的自动评估方法,可为医生提供辅助作用,有效提高医生诊断的效率和准确率。目前基于人工智能的方法存在采集的病理图像质量不高的问题,对智能算法的预测产生了不良影响。而造成这个问题的原因主要有两
3月5日,第十三届全国人民代表大会第五次会议在人民大会堂开幕。国务院总理李克强作政府工作报告(以下简称报告),报告综合研判国内外形势,提出2022年主要经济发展目标,对经济社会发展作了部署,明确了财政和货币政策取向,并就扩大内需、制造业、基建、房地产、基建、绿色发展、数字经济及科技创新等方面提出产业发展方向。作为国民经济支柱产业之一,钢铁行业与宏观形势、金融政策以及各产业发展方向息息相关,从
期刊
从压缩感知的信号中重构出原始信号一直是计算成像领域中的热点问题,其核心是如何提升成像质量。压缩感知信号重构是一个不适定的逆问题,重建过程会遇到各种挑战,其中最常见的是边缘模糊和噪声干扰。最近,深度学习方法显示了解决各种逆成像问题的巨大潜力。但由于计算成像不同成像系统的特殊性,通常需要针对不同的成像逆问题分别进行建模,缺乏通用性和灵活性。为此,本文主要研究基于无监督深度学习的计算成像方法,采用生成网
在如今高度网络化、信息化的时代,掌握网络舆情是非常有必要的。2020年微博的日活跃用户量高达2.24亿,可见对于微博的舆情分析具有较高的研究价值和重要的社会意义。在舆情分析上,传统的文本情感分析存在情感词典不全、领域适用性差等问题;而机器学习分类方法存在细粒度不够、分类方法单一(多为二元分类)等问题。因此,本文提出了一个将情感词典和机器学习相结合的情感分类方法,并运用于微博的舆情分析。实验结果表明
随着人工智能的崛起,计算机视觉在城市智能化上发挥着举足轻重的作用,为响应智能化城市建设、加快科学技术发展使得计算机视觉已经成为当下一大热点研究方向。微表情作为计算机视觉领域中重要的一环,因其具有微妙、轻微等特点,从而导致其依然存在识别率低、可解释性弱等问题。如何从微表情视频片段中挖掘、识别微表情信息成为计算机视觉领域的热难点。若能很好的挖掘脸部表情动作与情感的联系,将使得机器更生动形象化的展现人的
随着老龄化的日益加剧,突发性摔倒等老年人健康监护问题已成为社会性困扰。基于计算机视觉的摔倒检测方法可为老年人健康监护问题提供有效解决方案。然而,仍然存在如下亟待解决的问题。(1)现有研究往往忽视对人群摔倒优先级的分析,只关注结果,但不同年龄段人群摔倒造成的后果可能完全不同;(2)现有大多摔倒检测方法均为集中式,无法对重点人群优先进行检测,实时性和可拓展性较差,且缺少摔倒预判断机制。针对问题(1)中
目的:确定香菇多肽可行简单的提取工艺。方法:取香菇,前处理,加热提取,蛋白酶酶解,澄清处理,过超滤膜,真空浓缩,喷雾干燥得香菇多肽。结果:以去离子水为香菇多肽的提取溶剂;碱性蛋白酶酶解,酶的添加量为1.2%,最适p H值为8.5,最适酶解温度是55℃;加16倍去离子水进行加热提取,提取时间为2小时;真空浓缩至白利糖度为15°左右;干燥方法为喷雾干燥。结论:利用酶法提取香菇多肽的工艺简易、可行。
近年来,随着移动云计算的快速发展,云数据泄漏事件频频发生,例如简历信息贩卖事件,隐私泄漏安全问题成为移动云计算亟待解决的问题之一。用户与移动云服务器的相互认证作为保护隐私安全的第一道屏障,其认证过程中如果用户密钥完全由密钥生成中心(KGC)决定,KGC受到恶意攻击或者本身不可信情况下,会给移动云应用身份认证过程带来巨大的风险,即密钥托管问题。针对该问题,本文设计一种新的隐私感知认证方案,将该认证方