论文部分内容阅读
融合基因是指两个基因的编码区首尾相连构成的嵌合基因。当染色体发生易位、重排或者缺失时,都有可能产生融合基因。融合基因编码的蛋白通常具有致癌性,会影响细胞的正常生理功能,是导致癌症的主要原因之一。目前,在肺癌、甲状腺、乳腺癌等疾病中,都发现了融合基因的存在。若能成功检测融合基因,将有助于癌症诊断,甚至是癌症治疗。二代测序技术的出现,使得从基因组水平检测融合基因成为了可能。通过分析融合基因测序读段特征,寻找融合基因和正常基因测序读段的差异,开发出了一种新的融合基因检测算法:GFusion。其采取了分割比对的方法,首先使用Bowtie、Tophat等软件,将读段比对到人类参考基因组,得到SAM文件并从中提取出没有比对信息的读段。其次,将这些未比对上的读段,采用序列分割的方法创建人工双端读段,再重新比对这些双端读段,以此定位其来源基因及外显子信息。然后,对这些人工双端读段进行多重过滤筛选,从而得到候选的融合基因及融合读段。最后将候选的融合读段比对到重建的bowtie参考索引中,得到最终确认的融合基因及融合读段。与现有的融合基因检测软件Tophat-Fusion、FusionMap等相比,GFusion的过滤校验标准使用了复杂的双端映射匹配信息以及重构的读段比对bowtie索引,使融合基因检测结果更加可靠。为了测试GFusion的性能,使用人类乳腺癌细胞系,正常乳腺细胞系,慢性粒细胞白血病K-562细胞系的RNA-Seq数据做了分析。GFusion成功检测到实验证实的融合基因,并预测到了部分新的融合基因。在人类乳腺癌细胞系23个实验证实的融合基因中,GFusion检测到了其中20个。在K-562细胞系中,成功发现了BCR-ABL1融合基因,这与研究证明的慢性粒细胞白血病病因相吻合。为了与已有的融合基因检测软件Tophat-fusion、FusionMap比较,还将人类胚胎干细胞数据和融合读段相混合创建了模拟数据集。经过数据结果,敏感度,假阳性率,以及融合基因支持的读段数量比较,发现GFusion对于融合基因检测效果更加明显。GFusion通过引入双端映射匹配信息,使融合基因的过滤筛选更加严格,不仅具有较高的敏感度,还具有较低的假阳性率。