论文部分内容阅读
在人类各种癌症中,体细胞的拷贝数变异(CNA)是一种常见的基因事件,也是癌症细胞的一种重要特征,它会影响肿瘤的发生和发展。显著的拷贝数变异(SCAs)是指在肿瘤细胞中影响基因组相同区域的、具有显著多发性的CNAs。SCAs被广泛地看成是在癌症的形成和发展中具有“驱动”作用的基因突变,它有助于精确地找到(新)致癌基因和癌症抑制基因,便于为临床上癌症的预防和治疗提供依据。基于CNA的拷贝数显著性检测的目的就是对分段后的拷贝数数据进行显著性检测,从而识别SCAs。本文的研究目标是研究基于CNA的拷贝数显著性检测算法,用Java语言实现各个算法,并对各个算法进行比较。由此本文的主要研究工作如下: (1)提出了拷贝数显著性检测的整体框架,为拷贝数显著性检测算法的研究提供了一个总体方案。通过分析基于CNA的拷贝数显著性检测算法的基本原理,归纳各个算法的共同且重要的步骤以及每个步骤可以选择的实现方式,提出了基于CNA的拷贝数显著性检测算法的整体框架。 (2)研究并实现了五种典型的基于CNA的拷贝数显著性检测算法,GISTIC、JISTIC、GISTIC2.0、SAIC、RUBIC。分析了各个算法的原理、特征、优缺点以及实现步骤,用Java语言重新实现了GISTIC、JISTIC、SAIC、RUBIC四个算法,并对以上各个算法进行了实测分析比较。 (3)针对SAIC算法在用皮尔森相关系数确定CNA单元时,断点确定上出现的误差问题,参考研究的以上五种典型的算法并结合随机森林中的Bagging算法,对SAIC算法提出了改进,由此提出了新的算法BSAIC,用Java语言实现了这个算法,并在模拟数据和真实数据上验证了其改进的效果。 (4)设计并实现了拷贝数显著性检测的算法工具集,使用这个算法工具集对各个算法进行了分析比较。根据真实数据的特性以及各算法的要求,提出了一个包含16个可调参数的模拟仿真数据集生成算法以及配套的评估标准。对于真实数据,本文选取了RUBIC的官方R代码中公开的样本数据集来测试各个算法,使用RUBIC算法的官方代码的结果为标准对各个算法进行比较分析。通过比较分析,证明了BSAIC算法相对SAIC算法的改进效果显著。