论文部分内容阅读
二十一世纪是数据和信息化的时代,各类数据库和信息系统的建立提高了人类分析数据并进行决策的能力。由于数据量的急速增加,如何从大规模数据中挖掘出数据所蕴含的信息成为了一项重要的研究课题。贝叶斯网络(Bayesian Networks, BN)是一种将概率论运用于不确定性推理的工具,它是概率统计与图论相结合的一种概率图模型(Probabilistic Graphical Models)。贝叶斯网络清晰地表达了各个节点之间的因果关系,能够利用现有数据分析不确定事件发生的概率。贝叶斯网络的一大优势是可以利用先验知识进行学习。在生物实验中,由于实验技术等原因会出现缺失数据,对缺失数据处理不当会影响数据分析的结论,最简单的方法是去掉具有缺失数据的样本,但这一方法会降低数据的信息量,有可能会造成重要结果的丢失。常用的不完整数据中网络结构学习的方法需要进行反复迭代计算,需要耗费较长的时间。本文首先介绍了贝叶斯理论和贝叶斯网络的研究背景,并对贝叶斯网络的基本定义和理论进行了分析介绍。本文基于核独立成分分析(Kernel independent component analysis, KICA)的思想以及矩阵的不完全Cholesky分解的算法设计了一种贝叶斯网络结构的评分函数,该函数能够在缺失数据下直接对网络结构进行评分而避免进行补齐缺失数据的相关步骤,从而提高了计算的效率以及学习结果的可靠性。在理论分析的基础上,本文实现了这种评分函数,编写了一个基于这一评分函数的贝叶斯网络结构学习算法,并在异质深度测序数据上进行了基因表达调控网络的构建。本文的程序在读取含有缺失数据的异质深度测序数据之后,能够直接利用该数据对网络结构进行评分,并且能够根据贝叶斯等价类理论以及生物调控网络的反馈现象将学习出的有向无环图(DAG)转换为部分有向无环图(PDAG)。最后将学习结果与标准网络结构进行比较,利用Jaccard相似度衡量本文学习的网络和标准网络的相似度,证明本文提出的算法的有效性。