论文部分内容阅读
第二代测序技术具有超高通量,成本相对较低,实验方法简单等优点,其应用极大地促了人类对疾病在基因和DNA水平的研究。但面对大样本DNA测定的需求,第二代测序技术还未达到足够低的成本。从2009年开始出现的外显子捕获测序技术,将待测DNA模板区域从3G降低到30M,并且覆盖了大部分疾病研究主要关心的基因编码区,这大大降低了测定单个研究样本的成本。外显子捕获测序在过去的不到两年的时间里已经取得了很大的成功,研究者们通过它,找到了超过100种的以前未知的疾病致病基因,该技术并被科学杂志评为2010年十大科学突破之一。家族性高胆固醇血症(FH)是一种对人类威胁极大的遗传疾病,会引起动脉粥状硬化等高风险心血管疾病,亚洲人群的患病率约为1/900。以往对家族性高脂血症的研究已经定位了LDLR等几个基因,但仍有超过30%的患者无法在这些已知基因中找到原因。本文研究的家系,在以往研究中已经排除已知基因致病的可能,连锁分析提示在3号和21号染色体各有一个区域与该疾病相关,但未找到致病基因。同时,先证者表现出显著高于其父母的疾病指标,并且有关节处皮肤褐斑等严重的体表指征,这提示了先证者从其父母分别获得致病异质性因子,非常有研究的价值。本文应用最新的外显子测序技术,对先证者及其父母的样本进行了测定,以查找新的或罕见的致病基因突变。通过分析,我们首先排除了先证者自发突变获得严重症状的可能。在对连锁定位区域的基因筛选中,我们使用了母/子共有突变位点的过滤规则,但没有在两个区域发现有价值的突变基因。这这能是技术缺陷引起的假阴性造成的,另一种可能是该疾病由多个已知突变的等位基因联合作用造成,有待进一步考察。我们接着考察了纯合突变位点,也未发现可能的致病突变。最后我们考察了复合杂合突变的情况,并且在其中筛选出4个基因:ABCA13, EVC2, LOC653203,及STOX1。其中,ABCA13所属的ABC转运器家族已有很多与脂类运输和家族高胆固醇血症相关的研究报道。我们怀疑,ABCA13很可能是新的高胆固醇血症相关基因。但该结果还有待在大样本中进行验证。本文同时还对第二代测序技术突变分析进行了深入的研究。致病基因突变的查找通常要先过滤掉已知较高频的突变位点,我们发现在过滤后的数据中存在非常高的假阳性,使后续数据分析极为困难。这是由于已知突变位点只占基因组的一小部分,因此随机假阳性事件大部分发生在未报道位点区域。本文进一步研究发现已知高频位点的高质量突变数据在某些数据特征上与未知位点突变数据具有显著差异,而这种差异提示了假阳性突变的特征。本文接着设计了一个利用高频位点数据特征指导位置位点突变过滤的自适应SNP过滤算法,结果表明,该方法具有很高的过滤效率,并且造成假阴性的比例较小。该方法还具有平台自适应性。本文还设计了一个包含突变注释功能的分布式的致病基因突变查找自动化流水线程序,可以借助集群环境,对设定样本进行自动快速的处理。