论文部分内容阅读
单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)是在染色体基因组上的单个核苷酸引起的DNA序列多态性。开展SNP关联研究对于定位致病基因、发现复杂疾病的遗传机理有着非常重要的意义。面对具有高维小样本特性的SNP数据,本文建立了致病位点的检测模型,遗传疾病与性状与位点的关联分析模型,针对海量数据进行有效降维,充分考虑SNP之间、SNP与遗传疾病之间、SNP与性状之间的强关联关系。本文主要做了如下工作:1)采用了分型值的思想,建立简单数值编码。基于等位基因频率的映射规则,对每个位点的碱基对进行重新编码,将每个位点的基因型映射为数字0,1,2。然后利用最小等位基因和哈迪-温伯格平衡建立质量控制模型,消除不符合基因平衡的因素,筛选出不符合基因平衡的SNP位点。2)对单个位点进行关联性测试。使用卡方检验和逻辑回归两种方法来探讨致病SNP的筛选。分别通过这两种方法,筛选出了致病显著性较高的十个SNP位点,并通过Bonferroni校正法控制假阳性结果。考虑到SNP之间的相关性,本文还使用随机森林算法来分析遗传数据集。随机森林算法不仅可以进行分类和回归,本文利用其重要特性之一,变量重要性来计算每个SNP的得分,得分越高表示该位点与疾病的相关程度越高,是致病SNP的可能性越大。最终得到的致病位点编号为rs2273298。3)探讨了 SNP与多个性状之间的关系。首先计算这些性状之间的相关系数,大部分都超过0.7,因此这些性状之间是高度相关的。随后,本文应用了典型相关分析,找到与这些性状高度相关的位点编号是rs12746773。