论文部分内容阅读
目的:近年来随着遗传标记的广泛应用,在日常法医实践检案过程中,除了常规的标准三联体、二联体亲子鉴定案件外,像祖孙、叔侄、半同胞等复杂亲缘关系鉴定诉求也在逐年增加。这类鉴定往往对于受灾者或失踪人员身份不明的遗体识别、扩大犯罪嫌疑人的搜索能力等方面具有重要的应用价值。目前这些复杂亲缘关系鉴定尚未得到有效解决,要解决复杂亲缘关系的鉴识,首先要增加检测的遗传标记的数量,以获得更多的信息。短串联重复(Short tandem repeats,STR)依然是目前法医学人类身份识别的主流遗传标记,本课题组前期应用下一代测序技术(Next generation sequencing,NGS)构建了包含42个常染色体STR基因座及牙釉质蛋白基因(Amel)的复合分型体系。本研究拟对该分型体系在二级亲缘关系的判定进行系统的应用评估研究,以期为NGS-STR分型技术在复杂亲缘关系鉴定中的研究提供基础数据,为解决二级亲缘关系鉴定疑难问题提供新的技术方案。方法:1.二级亲缘关系样本的收集及验证本研究所用10个家系的样本来自本课题组前期收集的家系DNA血液样本以及血卡样本,研究通过河北医科大学医学伦理委员会审核,所有受试者均签署知情同意书。使用E.Z.N.A.DNA Blood Midi kit提取血液样本DNA,并使用Nano-QTM蛋白核酸定量仪对上述样本进行DNA定量;使用试剂盒Goldeneye TM20A、Goldeneye TM22NC、Microreader TM23sp对DNA样本进行PCR扩增,使用ABI 3500遗传分析仪对上述PCR产物进行毛细管电泳获得其准确分型;计算亲权指数或全同胞关系IBS,以验证各样本间的亲缘关系,从中筛选出所有二级亲缘关系对,即祖孙对、叔侄对或半同胞兄弟姐妹。2.NGS-STR体系检测家系样本STR分型采用课题组前期构建的NGS-STR分型体系,基于Illumina MiSeq FGx TM平台对上述二级亲缘关系对内包含的所有样本进行测序及测序数据分析,对样本覆盖深度(Depth of coverage of sample,Do C of sample)、基因座平均覆盖深度(Depth of coverage of locus,Do C of locus)、基因座序列构成比和等位基因覆盖度比(allele coverage ratio,ACR)等参数进行质量评估。比较NGS-STR和CE-STR分型结果,分析两种分型方法的差异,评估NGS-STR分型体系的准确度以及与CE-STR结果的一致性。3.NGS-STR体系在二级亲缘关系鉴定中的阈值界定及效能评估对于上述已经确证为二级亲缘关系的个体对,以及从这些样本中随机抽取的等量无关个体对,计算基于CE-STR与NGS-STR两种检测结果的累积似然比(Cumulative likelihood ratio,CLR)及状态一致性评分(Ide ntity by state score,IBS),分析两个参数在二级亲缘关系对与无关个体对中的分布情况,设置认定或排除二级亲缘关系与无关个体的判断阈值,评估既定阈值下的系统效能。结果:1.NGS测序数据质量评估:(1)将构建好的文库进行Lab Chip?GX Touch24片段质检,实验结果表明:文库既没有小片段接头峰也没有大片段的拖尾峰,与文库质检预期峰图相吻合;(2)7500实时定量结果表明,空白对照孔CT值大于29、标准曲线斜率范围为-3.1~-3.5、各复孔间的标准差小于0.4、扩增效率范围为90%~110%,以上数据表明文库质检合格;(3)本实验过程采用MiSeq FGx TMMicro芯片以RUO(Research Use Only Run)模式在Miseq FGx TM测序平台进行四次双端(Pair-End,PE)PE300测序。下机数据主要质控指标:簇密度(Cluster density)、簇通过率(Clusters Passing Filter)和碱基质量分数(Quality Score)Q30、平均值分别为1348.25 K/mm2、87.58%和91.5%,上述指标均符合Illumina官方认定测序数据可用结果;(4)覆盖深度:样本覆盖深度最高达1065184×,最低为2665×,所有样本平均Do C为147207±70720×(mean±SD);平均基因座覆盖深度最低为基因座D20S470,其值为1730±2030×(mean±SD),最高为基因座TH01,其值为9866±10562×(mean±SD);基因座D21S11的平均Do C离散程度最大,不稳定性最高,基因座D2S441平均Do C离散程度最小,具有较好的稳定性;(5)基因座序列构成比:将分析阈值界定为5 reads、10 reads、20 reads、30 reads、40 reads和单个位点上总数据的5%,对不同阈值情况下的Allele、Stutter和Noise的数量进行计算和差异比较。结果显示:随着分析阈值的严格化,其真实等位基因的检出率相对增加。(6)等位基因覆盖度比:将分析阈值界定为5 reads、10 reads、20 reads、30 reads、40 reads和单个位点上总数据的5%,结果表明:随着分析阈值的增加,各基因座平均ACR大小分布呈现差异性,在5 reads分析阈值下,平均ACR最高的基因座为TPOX,为0.82;基因座D20S470的平均ACR最低,仅为0.48;(7)样本一致性研究:根据国际法医遗传学会的命名指南和相关文献中提出的核心序列重复次数修正算法对该体系所有基因座进行命名[1],并将NGS-STR数据和CE-STR分型结果比较,统计结果发现以5 reads的分析阈值进行分析,若只考虑长度多态性,在73个样本的3066个基因座中,有3305个位点(99.64%)NGS测序结果与CE结果一致。在这些分型一致的基因座中,采用CE-STR方法共检测到349个等位基因,而若同时考虑序列多态性,NGS-STR检测到501个等位基因,较CE多检出152个同等位基因(Isoallele)。在24个基因座中出现了同等位基因,其中新增等位基因最多的基因座是D13S317,占该位点原有等位基因总数的160.00%。2.NGS-STR体系在二级亲缘关系鉴定中的阈值界定及效能评估(1)IBS及CLR分布情况:在10个家系中,共确定祖孙关系47对,叔侄关系87对,共涉及83个样本。其中10个样本测序结果较差,无法得到准确分型结果,故基于剩余的73个样本进行后续分析。基于CE结果以及NGS结果,分别计算这73个样本构成的115对二级亲缘关系对和随机等量无关个体对的IBS、CLR,结果发现,使用IBS指标,无论CE方法还是NGS方法,二级亲缘关系对与无关个体对之间均有较大的重叠空间;而采用CLR指标,重叠空间明显减小,表明CLR指标的鉴别能力优于IBS。而且NGS方法较CE方法区分二级亲缘关系与无关个体的能力明显提高。(2)认定祖孙和/或叔侄关系的阈值:针对认定祖孙和/或叔侄关系,使用Log10(CLR)值的分布结果分别设置了两组判断阈值。诊断试验结果表明,如果将Log10(CLR)≥2作为认定二级亲缘关系的阈值,则42STRs-CE的假阳性率为0.00%,灵敏度为72.17%;42STRs-NGS的假阳性率为0.00%,灵敏度为81.74%;当上述界值为1时,两系统假阳性率不变,42STRs-CE的灵敏度增至90.43%;42STRs-NGS增至90.43%。无论是42STRs-CE体系还是42STRs-NGS体系在认定二级亲缘关系时,在较低阈值范围内其假阳性率皆为0.00%,而其灵敏度随着判定阈值要求的增高有所下降。(3)排除祖孙和/或叔侄关系的阈值:如果将Log10(CLR)≤-1作为排除二级亲缘关系的阈值,则42STRs-CE的特异度为84.35%,假阴性率为2.61%;42STRs-NGS的特异度为89.57%,假阴性率为2.61%;若将Log10(CLR)≤-2作为排除二级亲缘关系的阈值,则42STRs-CE的特异度减至67.83%,假阴性率为0.00%;42STRs-NGS的特异度减至81.74%,假阴性率为0.87%。随着阈值逐渐降低,42STRs-CE体系和42STRs-NGS体系的特异度均有所下降,整体来看42STRs-NGS体系在排除二级亲缘关系时的特异度要好于42STRs-CE体系。综上,将灵敏度较高的Log10(CLR)值设为认定二级亲缘关系的最低阈值,特异度较高的Log10(CLR)值设为排除二级亲缘关系的最高阈值。在这种策略下,我们确定Log10(CLR)≥1、Log10(CLR)≤-1分别作为42STRs-NGS体系认定和排除祖孙和/或叔侄关系的阈值。参考《生物学全同胞关系鉴定实施规范》的标准,引用检测系统效能(Power of the genotyping system)概念。在上述阈值下,230对样本中有20对(8对祖孙/叔侄、12对无关个体)无法给出倾向性意见,即检测系统效能约为91.30%;在得出的倾向性鉴定意见的210对中,有3对错判(均为祖孙/叔侄错判为无关个体),即得出倾向性意见时准确率为98.57%。结论:本研究应用实验室前期构建的包含42个常染色体STR和Amelogenin基因的NGS-STR分型体系检测115对祖孙/叔侄样本,评估该体系在二级亲缘关系鉴定中的法医学应用价值,得到以下结论:该NGS-STR体系在本实验室具有良好的稳定性,与CE结果具有较好的一致性,并能同时检测到更多的同等位基因,提高了系统效能;应用该分型体系进行二级级亲缘关系判定研究,以Log10(CLR)≥1、Log10(CLR)≤-1分别作为认定或排除的判断阈值,灵敏度为90.43%、特异度为89.57%,假阳性率为0%,假阴性率为2.61%;检测系统效能约为91.30%,得出倾向性意见时准确率为98.57%。可以较好地区分祖孙和/或叔侄与无关个体,为二级亲缘关系鉴定提供了新的基础数据与技术方案。