论文部分内容阅读
随着机器学习,大数据技术,云计算技术的发展,人工智能领域产生了一系列的研究热点,因果关系发现就是其中之一。2011年Turing Award获得者,贝叶斯网络提出者,Judea Pearl曾说人工智能陷入相关关系的陷阱而忽视了因果关系,其认为学者应将关注领域聚焦在因果关系上,因为这可能是达成人工智能的唯一路径[1]。尽管近年来有很多从观测数据中寻找因果关系的方法被提出,但是在混合类型数据以及在多元变量数据上,因果推断依然存在准确率低,识别出的因果图与真实出入较大的现象。基于此本文首先论述了因果推断的相关理论和经典的因果推断方法,然后针对上述问题本文的主要工作有:在二元变量混合类型观测数据的因果推断上提出了一种基于神经网络的双向加性噪声模型(Dual-ANM-MM)进行变量间的因果方向识别。该模型能够较好地处理基于混合加性噪声模型生成的二元变量观测数据的因果推断问题。该方法改进了原始混合加性噪声模型的损失函数,在其中添加了结果变量和分布参数的希尔伯特施密特独立性,然后使用使用梯度下降法来最优化改进的损失函数,最后分别比较分布参数与原因变量,结果变量之间独立性来确定混合二元变量的因果方向。本文在理论上验证了方法的可行性,并在模拟生成的数据和causal-effect公开数据集上进行验证,实验结果表明该算法的准确率较传统的IGCI,ANM,PNL,LiNGAM,SLOPE方法具有一定的提高。在多元变量的观测数据上提出了一个用于解决多元变量间因果推断问题的框架(CIMV),该框架能够从观测数据中推断出一个完整的因果网络结构图。该框架需要预设置两个阈值ε,δ参数(通过实验测试得出),其中ε用于互信息独立性测试来识别直接节点,δ用于条件互信息删除错误的直接节点,从而形成一个因果无向图;然后在逻辑结构上使用CDI算法识别V-结构和三角结构中的方向,再将逻辑上不能识别的方向采用混合了多种二元变量因果推断的方法进行识别(如果二元变量的数据是混合类型数据则使用Dual-ANM-MM),直到无向图中的每个节点周围的边的方向都被识别,即得到一个完整的因果网络图。本文分别在模拟生成数据和真实贝叶斯网络上进行了实验,结果表明提出的框架能够较好的处理多元变量间的因果推断问题。