基于肿瘤RNA-Seq数据识别融合基因的方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:cuileidan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
融合基因是指两个基因的编码区首尾相连构成的嵌合基因。当染色体发生易位、重排或者缺失时,都有可能产生融合基因。融合基因编码的蛋白通常具有致癌性,会影响细胞的正常生理功能,是导致癌症的主要原因之一。目前,在肺癌、甲状腺、乳腺癌等疾病中,都发现了融合基因的存在。若能成功检测融合基因,将有助于癌症诊断,甚至是癌症治疗。二代测序技术的出现,使得从基因组水平检测融合基因成为了可能。通过分析融合基因测序读段特征,寻找融合基因和正常基因测序读段的差异,开发出了一种新的融合基因检测算法:GFusion。其采取了分割比对的方法,首先使用Bowtie、Tophat等软件,将读段比对到人类参考基因组,得到SAM文件并从中提取出没有比对信息的读段。其次,将这些未比对上的读段,采用序列分割的方法创建人工双端读段,再重新比对这些双端读段,以此定位其来源基因及外显子信息。然后,对这些人工双端读段进行多重过滤筛选,从而得到候选的融合基因及融合读段。最后将候选的融合读段比对到重建的bowtie参考索引中,得到最终确认的融合基因及融合读段。与现有的融合基因检测软件Tophat-Fusion、FusionMap等相比,GFusion的过滤校验标准使用了复杂的双端映射匹配信息以及重构的读段比对bowtie索引,使融合基因检测结果更加可靠。为了测试GFusion的性能,使用人类乳腺癌细胞系,正常乳腺细胞系,慢性粒细胞白血病K-562细胞系的RNA-Seq数据做了分析。GFusion成功检测到实验证实的融合基因,并预测到了部分新的融合基因。在人类乳腺癌细胞系23个实验证实的融合基因中,GFusion检测到了其中20个。在K-562细胞系中,成功发现了BCR-ABL1融合基因,这与研究证明的慢性粒细胞白血病病因相吻合。为了与已有的融合基因检测软件Tophat-fusion、FusionMap比较,还将人类胚胎干细胞数据和融合读段相混合创建了模拟数据集。经过数据结果,敏感度,假阳性率,以及融合基因支持的读段数量比较,发现GFusion对于融合基因检测效果更加明显。GFusion通过引入双端映射匹配信息,使融合基因的过滤筛选更加严格,不仅具有较高的敏感度,还具有较低的假阳性率。
其他文献
目的分析肺癌手术后发生呼吸道感染病例,与不同病理类型之间的相关性,为预防术后感染的高危病理类型患者采取措施。方法回顾254例肺癌手术患者中发生呼吸道感染的46例,结合病理
马王堆汉墓墓俑是目前已知西汉早期南方墓俑的主要代表之一。本文运用考古学分类、美术史形式分析的方法进行研究,在进行多角度观察的基础上,将其概括、归纳为三种风格样式,
在我国科学技术快速发展的过程中,信息化技术已经广泛在我国多个领域得到有效应用。其中企业的会计信息化是当前企业发展的必然趋势。但这种会计信息化发展的速度之快,对我国
本文针对技工院校班主任工作展开讨论,阐述了做好班主任工作的关键是班主任要注重鼓励学生、引导学生、关爱学生。
目的研究c-met和Ezrin在大肠癌组织中表达及其临床病例和预后关系。方法应用免疫组织化学方法检测35例大肠癌组织及20例癌旁组织中c-met和Ezrin表达水平,分析c-met和Ezrin表
双级推料离心机(以下简称离心机)是一种连续操作、生产能力大、结晶破坏少、滤饼含湿量低的过滤式离心机,是目前制盐、制碱行业中脱水干燥工艺过程中的关键设备之一,对物料的
河北省凭借其独特的政策、资源、产业、区位、技术等优势,近几年煤化工产业发展迅猛,焦炭产能一直位居全国第二,现在基本建成京一唐、邯一邢两大煤化工产业基地,形成了“北有中润
为了解自锚式悬索桥钢-混结合段局部应力分布和连接件受力特点及是否满足设计要求,以怀化市高堰西路舞水自锚式悬索桥为背景,建立该桥钢-混结合段局部分析精细化空间有限元模
[目的]通过对比分析研究40岁以下青年结直肠癌患者与老年(≥60岁)结直肠癌患者临床特点和病理特征,探讨40岁以下青年结直肠癌发病模式及临床特点,以提高对青年结直肠癌的认识
位于桂西北丹池锡多金属成矿带中段的大厂铜坑矿床是国内外著名的超大型锡多金属矿床。该矿床由上部锡多金属矿体和新发现的深部矽卡岩型锌铜矿体组成,前人对上部锡多金属矿体的矿化特征和成矿作用等进行过大量研究,但对层状锡多金属矿体的成因分歧较大,且对深部锌铜矿体研究较少。本文在详细的野外地质调查和室内矿相学研究基础之上,对锡多金属矿体和锌铜矿体各成矿阶段中的流体包裹体进行显微测试,并结合Pb同位素以及He-