论文部分内容阅读
在利用基因芯片的高通量特性的情况下,研究者们希望利用这些数据获得基因间的调控关系,提出的推断方法很多,如布尔网络、相关分析、微分方程、贝叶斯网络等。本文研究了现在较为热点的贝叶斯网络模型,主要对它的结构学习算法进行了比较分析,期望找到适合分析基因表达数据的特异性结构学习算法。具体比较的算法有K2、马尔可夫链蒙特卡洛(MCMC)和贪婪搜索(GS)三种。
当样本小于10时,很难获得数据间的正确关系。随着样本量的增多其推断出的结构与真实图相近,随着样本量的增多其推断出的结构与真实图相近,利用MCMC法在基因数为5时需要50个芯片数据;基因数为9和11需要100个芯片数据;基因数为13时需要200个芯片数据。利用k2算法在给定合适的顺序的前提下与MCMC算法情况相似,但其需要提供有效的先验信息,这一点是其推断网络结构的最大限制。利用GS算法在基因数目在13个以下时都需要约200个样本,当将基因数增加到20,这时约需要1000个样本。
K2在给定适合的先验顺序后可推断出较准确的结构,且推断速度很快,但其缺点是对先验的依赖性强。利用MCMC算法不需要任何先验值,在样本量达到100时会在60-85分钟的时间内学习出小于15个基因的调控网络。GS算法所需要的样本量较大,消耗机时较长,且获得的值多为局部最优解,本实验建议舍弃此法。
利用k2、GS和MCMC三种算法学习部分细胞周期网络所获得的结果其正确率在20%~35%间。但利用ASIA非基因表达数据这三种算法在芯片数达到100、100和200时都能获得正确的结构图。