基于决策树的孤立森林解释算法研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:dongsuwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器学习在人工智能领域取得了巨大进展,但许多机器学习模型被构建为“黑盒”类型的模型,这种情况使用户很难去理解模型系统的内部逻辑。这种缺乏解释的情况既是一个实际问题,也是一个道德问题。模型可解释性在一些特定领域是有强烈需求的,尤其是在金融、医疗、反欺诈等领域。
  模型可解释性的研究已经出现了一段时间,但目前对于机器学习的可解释性学习的研究,大部分研究存在于监督学习领域,尤其在近几年,深度神经网络的迅速崛起,但其解释性能的不足引起了研究者的关注,许多研究者开始涉足于深度神经网络解释能力的研究。在无监督学习领域,模型解释性的关注相对较少。无监督学习有着利用无标签数据建模的优势,但是先验知识的缺乏在一定程度上增加了模型决策的不稳定性。模型可解释性在一定程度上弥补了这一不足,模型可解释性可以增加使用者对于模型的理解,使用者在理解模型对于输出结果的判断,便可以较好地规避风险。
  本文的主要工作是针对于无监督学习模型孤立森林进行模型可解释性研究,并针对模型的使用领域异常检测,进一步对模型导出决策规则做了工作。本文提出了一种基于决策树算法来解释孤立森林(IsolationForest)的预测结果,并使用决策树和相关理论提取筛选决策规则。决策树得益于模型的树状结构,具有很强的解释能力;而提取决策规则也是一种简单有效的可解释学习方法,具有易理解和跨平台使用能力强的特点。在本文提出的方法中,我们首先获取了已训练的孤立森林的训练细节,之后利用训练细节来训练一棵决策树来模拟它。通过决策树可以对模型进行解释,并导出决策规则。在决策规则导出部分,我们提出规则筛选的相关方法,有效规避规则的风险以及提高规则实用的自动化能力。
其他文献
学位
近年来,随着水下航行器的相关研究日益成熟,传统的水声传感器网络(Underwater Acoustic Sensor Networks,UASNs)常加入水下航行器组成异构UASNs,利用航行器的移动性完成大规模的海洋动态监测任务。然而,水声环境复杂多变和节点能量有限等特性使得异构UASNs中通信的可靠性和有效性较低。因此,本文对时间同步和路由协议两个关键技术进行研究。  针对现有异构UASNs中
高动态范围显示器使观看者能够体验到最高的图像质量,包括更高的对比度,更深邃的黑色状态,更高的灰度级和更鲜艳的色彩,是下一代显示器的关键技术之一。由于高动态范围显示器的使用增加,降低功耗、提高显示质量成为高动态范围显示的一大研究热点,为了对比度不足、黑色状态显示效果差问题,动态调光技术应运而生,将变暗的显示区域调暗,而无需将需要变亮的部分调暗,以此达到提高对比度、降低能耗、改善显示画质等目的。  为
作为人工智能的一个重要分支,进化计算是求解复杂最优化问题的主要途径。个体适应度评估是进化计算的重要步骤,个体适应度评估方法的可集成性、高效性以及精确性是影响进化计算可行性、实用性以及精确性的关键因素。本文针对因缺少可集成、高效的个体适应度评估方法而使得进化计算不能有效求解最优化问题这一瓶颈,对“盲评估进化计算方法”展开研究。首次提出个体适应度盲评估的方法,并基于个体适应度盲评估方法首次提出盲评估进
医学CT图像已经成为临床应用中不可或缺的诊断工具,然而医学CT成像过程中由于病人运动而产生的伪影是实现高精度诊断的最重要障碍之一,即使微小的运动也会对高分辨率CT图像带来较大影响,当运动伪影使图像质量严重下降时,可能会导致医生误诊。因此,消除医学CT图像中的运动伪影、提高图像质量成为目前图像处理领域的热点研究课题。  本文所做的主要工作如下:  (1)提出了基于频域幅度相关性的CT运动伪影校正方法
学位
本文以一个零售商主导的两级供应链为研究对象,构建两个生产竞争性或互补性产品的制造商是否采用无线射频识别技术(Radio Frequency Identification,RFID)时链上成员的收益模型,分析求解出各种情景下零售商定价/订货决策时制造商的最优批发价和RFID标签成本分摊系数,以及零售商的最优零售价/订货量,进而得出链上各成员的最大收益并探讨了两个制造商采用RFID的均衡策略。研究发现
群体智能优化算法是以动物社会为启发,主要通过群体协作行为使算法在问题的优化过程中更为有效。通常在解空间内,此类方法迫使群体中的所有个体进行某种合作,以便逐渐寻找出足够好的解,最终整体走向越来越好的解域。在群体智能优化算法中,根据人类的学习特点提出了人类学习优化算法,此算法运用不同层次算子之间的互相配合来寻找出全局最优解。它利用了人类学习新知识或新技能的特点,是一种十分有潜力的优化算法,往往能够产生
猪乙型脑炎病毒(JEV)是一种人畜共患的虫媒病毒,具有传染性和危险性,研究这类病毒需要一种安全的研究代替工具,假型病毒技术为解决这些问题提供了一种有效的研究手段。为了构建1种高包装滴度的JEV假型病毒,我们设计并包装出了3种乙脑假型病毒(JEVpv),分别是融合表达了水泡口炎病毒(VSV)囊膜蛋白强信号肽和JEV囊膜蛋白(ME)的VSVMEpv,带有乙脑自身弱信号肽及ME蛋白的SPMEpv,以及不
张等人为有效求解时变问题于2002年提出了一类特殊的递归神经网络—零化神经网络(Zeroing Neural Network,ZNN)。ZNN的提出解决了梯度神经网络(Gradient Neural Network,GNN)及其它传统方法在求解时变问题时,所合成的神经网络解无法精确收敛到理论解的问题。然而,在RNN的实现中,总是存在一些比理想情况复杂的实现误差,例如高概率出现的微分误差和模型实现误
无线传感器网络(Wireless Sensor Networks,WSNs)是人们感知世界获取多元信息的重要方法,已经被广泛应用到各种场景中,成为信息科学领域探索钻研的热点。但是,由于节点能量有限使得网络生命周期受到节点电池寿命的约束,所以与其它无线网络相比节能问题至关重要。数据链路层中的媒体接入控制(Medium Access Control,MAC)协议可以解决多个节点如何利用共享信道进行通信