论文部分内容阅读
恶性肿瘤正在成为全世界范围内导致人类死亡的最重要原因之一,患者的数量也呈逐年递增之势,根据前人的研究判断很可能是由于染色体的不稳定性引起的。而更深入的研究表明包括等位基因缺失和突变在内的染色体的畸变引起了肿瘤抑制基因的失活,整条染色体、染色体臂、小的染色体片段都可能发生丢失。染色体畸变可以通过自发或者诱发产生,其产生原因和机理比较复杂,关于染色体结构畸变的机理主要有两种假说:一是断裂-重接假说,另一种是互换假说。所以,等位基因缺失分析已经成为一种发现信息位点和候选肿瘤抑制基因的有效方法。在等位基因缺失实验中,同一个个体的正常组织细胞和癌细胞在有信息的分子标记位点(单核苷酸多态、短串联重复、限制性片段长度多态等)上能够初步确定缺失染色体的区段。但是,由于癌症分子研究中有效数据的缺乏和测量的错误导致了癌症治疗和预防的困难;同时,产生于等位基因缺失实验中的大量的数据却没有得到充分地处理,这是因为存在大量的被当做无信息位点的纯合性标记位点的数据几乎都没有得到利用,这篇论文就是有关于通过计算机模拟的方法根据已知信息位点的缺失信息对癌细胞染色体上等位基因缺失状态特别是对纯合性标记位点的缺失状态进行统计学推断。近年来的研究表明肝癌患者中17号染色体短臂发生杂合性缺失的频率较高,因此对人类17p杂合性缺失的研究成为探讨癌症发生机制和寻找抑癌基因的一条途径。本文首先对上海肿瘤所提供的17号染色体短臂的SNP原始数据进行处理,利用各个发生缺失的位点与邻近位点的遗传图距可以得到各个位点发生缺失的长度(cM,centimorgan)。分析这些缺失长度和染色体缺失个数的分布情况,用适当的模型去描述这种分布,初步探讨了缺失长度的分布函数及缺失个数的分布函数与肿瘤发生的关系。其次,我们使用真实数据所得到的缺失长度分布和个数的分布去模拟100条发生缺失的癌症患者染色体,运用马尔科夫预测法的转移概率矩阵去预测无信息位点的状态,显示出了一定的效果。见附录1。为了验证马尔科夫预测方法对等位基因缺失状态尤其是对纯合性标记位点的状态的估计效果,我们模拟了同样的100条癌细胞染色体,每一条染色体上均匀的分布着60个SNP标记位点,也就是总共6000个位点。当然,在等位基因缺失实验中会产生大量的无信息位点,我们利用目前已有的方法暂时还不能判断出这些位点的状态(缺失或保留)。模拟的过程中,在这些染色体上人为的选择了一些片段作为等位基因缺失区域,这些片段的长度是遵从伽玛分布(参数参照于实际数据拟合的结果),而染色体上等位基因缺失的个数则是遵从泊松分布(参数参照于实际数据拟合的结果)的。这个分布会随机的给出一个数字作为一个特定染色体发生缺失的个数,那么每个缺失的位置和长度就被固定了下来。到此为止,每条染色体的每个标记位点都有了一个状态,不是缺失就是保留。而为了达到验证方法效果的目的,我们按比例人为地删去了一些位点的状态作为无信息位点。马尔科夫预测方法被利用来根据已知信息位点的状态数据估计无信息位点的状态。首先,我们依据那些已知位点的状态统计出了一步转移概率,每一个位点的状态数据被我们编写的程序自动的依次写入了EXCEL表格;第二,计算机程序开始逐一地扫描每个位点的状态,当扫描到无信息位点时,计算机程序根据该位点的上一个位点的状态(缺失或保留)自动地产生一个小数,也就是根据转移概率矩阵。同时,程序随机地产生另外一个小数,我们比较这两个数字的大小然后给出这个无信息位点的状态(缺失或保留)。第三,每一个标记位点都有了一个状态值,一步转移概率被重新计算当它原有的值被用过了一次之后;这个被称作是迭代的过程需要重复1000次或者更多次直到无信息位点的状态达到稳定态。这种相对的稳定是一种平均概念上的固定,即我们取迭代的最后200次或者是更多次的状态的次数是否包含80%的缺失次数或是保留次数来决定该位点的稳定态。转移概率矩阵被用来估计无信息位点的状态并表现出一定的效果,见附录2所示。我们可以从3282个模拟的无信息位点中推测出1563个位点的状态,这其中有1314个位点的状态推测正确,249个位点的状态推测错误,正确率是84%。在一定的程度上,每一个位点的缺失频率得到了更正。但是,似乎我们从无信息位点中推测出来的有信息位点的个数还有些少(1563/3282),大概占到47%。所以说,转移概率矩阵分析能够在一定程度上预测无信息位点的真实存在状态,也能够得到一个比较准确的位点缺失的概率。由于估计出的无信息位点的原因,所以也增加了很多小片段的缺失,而且有很多无信息位点并没有估计出来它的真实的状态,所以致使推出的分布曲线与模拟时使用的理论长度分布并不能完全吻合,但是我们还是能从分布图中看出有符合相同分布的趋势。