论文部分内容阅读
近年来,机器学习在人工智能领域取得了巨大进展,但许多机器学习模型被构建为“黑盒”类型的模型,这种情况使用户很难去理解模型系统的内部逻辑。这种缺乏解释的情况既是一个实际问题,也是一个道德问题。模型可解释性在一些特定领域是有强烈需求的,尤其是在金融、医疗、反欺诈等领域。
模型可解释性的研究已经出现了一段时间,但目前对于机器学习的可解释性学习的研究,大部分研究存在于监督学习领域,尤其在近几年,深度神经网络的迅速崛起,但其解释性能的不足引起了研究者的关注,许多研究者开始涉足于深度神经网络解释能力的研究。在无监督学习领域,模型解释性的关注相对较少。无监督学习有着利用无标签数据建模的优势,但是先验知识的缺乏在一定程度上增加了模型决策的不稳定性。模型可解释性在一定程度上弥补了这一不足,模型可解释性可以增加使用者对于模型的理解,使用者在理解模型对于输出结果的判断,便可以较好地规避风险。
本文的主要工作是针对于无监督学习模型孤立森林进行模型可解释性研究,并针对模型的使用领域异常检测,进一步对模型导出决策规则做了工作。本文提出了一种基于决策树算法来解释孤立森林(IsolationForest)的预测结果,并使用决策树和相关理论提取筛选决策规则。决策树得益于模型的树状结构,具有很强的解释能力;而提取决策规则也是一种简单有效的可解释学习方法,具有易理解和跨平台使用能力强的特点。在本文提出的方法中,我们首先获取了已训练的孤立森林的训练细节,之后利用训练细节来训练一棵决策树来模拟它。通过决策树可以对模型进行解释,并导出决策规则。在决策规则导出部分,我们提出规则筛选的相关方法,有效规避规则的风险以及提高规则实用的自动化能力。
模型可解释性的研究已经出现了一段时间,但目前对于机器学习的可解释性学习的研究,大部分研究存在于监督学习领域,尤其在近几年,深度神经网络的迅速崛起,但其解释性能的不足引起了研究者的关注,许多研究者开始涉足于深度神经网络解释能力的研究。在无监督学习领域,模型解释性的关注相对较少。无监督学习有着利用无标签数据建模的优势,但是先验知识的缺乏在一定程度上增加了模型决策的不稳定性。模型可解释性在一定程度上弥补了这一不足,模型可解释性可以增加使用者对于模型的理解,使用者在理解模型对于输出结果的判断,便可以较好地规避风险。
本文的主要工作是针对于无监督学习模型孤立森林进行模型可解释性研究,并针对模型的使用领域异常检测,进一步对模型导出决策规则做了工作。本文提出了一种基于决策树算法来解释孤立森林(IsolationForest)的预测结果,并使用决策树和相关理论提取筛选决策规则。决策树得益于模型的树状结构,具有很强的解释能力;而提取决策规则也是一种简单有效的可解释学习方法,具有易理解和跨平台使用能力强的特点。在本文提出的方法中,我们首先获取了已训练的孤立森林的训练细节,之后利用训练细节来训练一棵决策树来模拟它。通过决策树可以对模型进行解释,并导出决策规则。在决策规则导出部分,我们提出规则筛选的相关方法,有效规避规则的风险以及提高规则实用的自动化能力。