高维数据下的因果发现算法研究

来源 :广东工业大学 | 被引量 : 4次 | 上传用户:cebianwo670
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
挖掘数据中蕴含的因果关系是自然科学研究的一个基本问题.近年来,尽管很多研究者致力于从可观测数据中寻找其中可能存在的因果关系,但是在高维数据集下,现时的因果发现算法依然面对着两大困难:1)高维数据下算法的准确率低;2)高维数据下的时间复杂度太高.因而,这些方法很难高效地应用到高维数据集进行因果关系挖掘.在本文的工作中,我们提出了一种三阶段因果发现算法.该第一阶段,利用基于最大相关性和最小冗余度的贪婪搜索方法寻找因果候选网络骨架;第二阶段,利用基于条件独立性测试的方法精炼因果候选网络骨架,得到精确的因果网络骨架;第三阶段,利用信息-几何模型对网络骨架中结点间边的方向进行推断,最终得到一个完整的因果网络结构图.具体来说,本论文的主要工作及创新点有:(1)高维数据下因果网络结构主要面对的是准确率低和时间复杂度高的问题.为了解决这一问题,引入了数据挖掘中特征选择方法,提出一种基于最大相关性和最小冗余度的能够快速且有效地寻找到一个候选因果网络骨架的方法,并从理论上和实验中证实其的可靠性.(2)基于上一步的结果,通过基于条件独立性测试的算法,在较低维的候选因果网络骨架下学习出精确的因果网络骨架.为了能在非线性数据下依然能学习出较好的因果骨架,算法采用了Kun Zhang等人提出的核条件独立测试方法代替传统的独立测试方法,其能够在样本量规模较小的非线性数据集中得到良好的结果.(3)根据数据的非线性属性,采用Janzing等人提出的信息-几何模型进行方向推断.该模型打破了变量间的对称关系,能从信息-几何角度上识别出变量间的因果关系,解决了传统因果网络方法无法处理马尔可夫等价类的不足.结合上一步得到的精确的因果网络骨架,可以在高维数据下更好地识别变量间的因果关系.我们从理论上分析了算法的有效性,然后分别在虚拟数据,真实网络结构和真实的高维数据集下进行了实验,并与两种主流的因果推断算法进行比较,实验结果表明了提出的算法在解决高维数据集因果关系识别这一问题上的有效性和稳定性.
其他文献
本文对关于线性模型中估计与预测问题进行了探讨。本研究讨论了原始模型和变换模型下βHβ++hσ的非负二次估计问题,在一般意义下分别考虑了关于非负无偏估计类和非负有偏估计
本文主要研究如下非线性二阶椭圆型方程组Dirichlet O-边值问题的正解的存在唯一性以及解的边界行为,在这里α
前馈型多层神经网络模型能逼近任意非线性函数。目前,己广泛应用于模式识别、语音识别、数据压缩等领域。BP算法作为其学习方式有效地解决了异或、T-C匹配问题,但BP网络的学
本文主要讨论Hardy(型)不等式以及含临界位势的椭圆型方程多重解的存在性,全文共七章。  第一章,建立了R~4中相应的Rellich不等式,证明了常数是最佳的,由此确定了临界位势
本文主要利用复方法考虑了一个平面上的高阶方程的边值问题和一个四维空间上的双曲方程的一个边值问题,并对解双曲方程有重要作用的双曲数和重复数用代数方法进行了研究,为进一
本文用欧拉格式法对一类连续捕食与被捕模型进行离散化,得到一类离散时间的捕食与被捕食模型。对这尖离散系统进行了定性分析,研究了系统正不动点的存在性及稳定性,并以离散时间
目前,由于实际问题的推动以及数学自身发展的深入,无穷维动力系统的研究已经成为动力系统领域中重要的研究课题之一.本文利用Galerkin方法,研究了一个具有非线性边界条件的梁的
本文主要研究分段连续型延迟微分方程(EPCA)数值解的稳定性,这类方程在物理、生物和控制中有着广泛的应用。  经典的分段连续型延迟微分方程包含了在一些区间上是常数的项,在
组合弹性结构在结构工程中有着广泛的应用.在已有工作的基础上,本文讨论了体和板刚接而成的简单组合弹性结构的有限元方法及其数值模拟.首先基于变分原理建立体板组合结构的
本文用复方法研究Clifford分析中两类边值问题和四元数空间中Pompeiu算子T的性质.在第一章,研究Clifford分析中一类广义正则函数的Plemelj公式和一个非线性边值问题,运用积分方