论文部分内容阅读
乳腺癌是全球女性最常见的恶性肿瘤之一,目前其发病率和死亡率均位居全球范围内女性恶性肿瘤的首位。近年来,随着我国经济水平的提高,女性生育哺乳习惯和生活方式的改变,以及城镇化进程的加快,我国乳腺癌发病率呈明显上升趋势。2015年,我国预计新发乳腺癌患者26.86万,死亡6.95万,其发病率位居女性恶性肿瘤的首位,死亡率排第六位。乳腺癌已经成为危害我国女性健康的重要恶性肿瘤。随着手术治疗方案的进步和靶向治疗的广泛应用,近年来乳腺癌的预后得到了显著的改善。然而,我国乳腺癌5年生存率仍不足75%,远远低于欧美发达国家的90%。开展乳腺癌预后影响因素研究,对评价患者的结局、指导患者个体化治疗具有重要的意义。肿瘤的大小、腋下淋巴结状态、组织学类型、组织病理学分级、淋巴管血管侵犯、淋巴细胞浸润等是影响乳腺癌预后的重要临床因素;近年来,分子生物学和肿瘤基因组学的进展也发现了一批与乳腺癌预后相关的蛋白如雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)、人表皮细胞生长因子受体2(human epidermal growth factor receptor2,HER2)和Ki-67,癌基因HER2、survivin和MYC,抑癌基因TP53、PTEN和BCL2等。研究者们基于上述研究结果先后开发了多种乳腺癌预后预测工具,如Oncotype DX,Prosigna,Mamma Print等,然而上述预测工具的准确性仍有待改善,而且上述模型多基于欧美人群建立,在中国人群中尚缺乏有效性评价。研究者在临床工作中发现,肿瘤分期、组织病理学类型、分子特征(包括ER、PR和HER2)相似的患者接受同样的治疗方案后,患者的预后仍然存在较大差异,提示个体的遗传背景可能会影响乳腺癌患者对治疗的敏感性,进而影响预后。筛选有效的遗传标志物,用于乳腺癌预后预测,指导患者的个体化治疗,是目前国内外研究的热点。全基因组关联研究(genome-wide association studies,GWAS)基于位点间的连锁不平衡(linkage disequilibrium,LD)原理,以标签单核苷酸多态性(tagging single nucleotide polymorphism,t SNP)代表整个基因组的常见遗传变异(较小等位基因频率,minor allele frequency,MAF≥5%),可以快速筛查全基因组范围内的常见遗传变异与不同疾病、性状的关联,是目前筛选肿瘤预后标志物最有效的手段之一。使用GWAS研究策略,国内外研究者先后报道了1p13.2、1q23.3、2q24.3、5q14.3、10p14、10q21.1、10q22.3、11q24.2、14q24.1、15q22.2、15q25.1、16q22.3、16q24.1、17p13.1、19q13.41等多个乳腺癌预后相关基因组区域,较系统地揭示了常见遗传变异与乳腺癌预后的关系,为阐明乳腺癌的预后机制、评估预后和筛选治疗靶标提供了有价值的线索。然而,GWAS研究主要是基于“常见疾病/常见变异”的遗传假说,一般只关注基因组的常见遗传变异,忽略了低频遗传变异对乳腺癌预后的影响。近年来,越来越多的研究发现低频变异(MAF<5%)往往具有较高的外显性,对常见疾病或性状的贡献同样重要。2012年,Illumina公司基于超过12,000余例个体的全基因组测序和外显子测序数据,开发了一款高通量外显子芯片Infinium?Human Exome Beadchip,该芯片覆盖了不同人种(包括欧洲人、非裔美国人、西班牙人和亚洲人)和不同疾病(如恶性肿瘤、2型糖尿病、代谢及精神疾病等)相关基因的247,870个遗传变异,这些遗传变异主要位于外显子区(约占93%),其余位于启动子区、终止密码子区、剪接区等,约90%为低频遗传变异。使用该款芯片,国内外研究者在非酒精性脂肪肝、冠心病、子宫内膜癌、食管鳞状细胞癌、胃癌和肺癌的易感性和预后研究中取得了成功应用。为了探索低频单核苷酸遗传变异(single nucleotide variant,SNV)在乳腺癌发生中的作用,本课题组前期开展了基于外显子芯片的低频遗传变异与乳腺癌易感性关联研究,发现了两个与乳腺癌发病风险显著相关的低频遗传变异:rs200847762(6p21.33,KFBPL)和rs1045012(7q22.1,ARPC1B)。本研究拟在前期研究工作的基础上,结合乳腺癌患者的临床和预后信息,系统探索低频遗传变异与乳腺癌患者预后的关联。采用单纯病例研究设计,整合Illumina Human Exome Bead Chip芯片分型和临床预后信息后,我们共获得了790例临床资料、治疗及随访信息完整的乳腺癌患者信息用于后续全外显子组预后关联分析。经过系统的质量控制后,共776例乳腺癌病例的56,688个位点纳入关联分析,关联分析使用Cox回归模型。对于初筛阶段满足P<1×10-3且分型可靠的低频错义或剪切位点,我们进一步在1,098例TCGA乳腺癌数据库中进行了扩大验证。研究发现,5q31.3区域的低频错义位点rs76571170(PCDHGA1,p.Asp187Asn)与乳腺癌预后显著相关(HR=3.37,95%CI=1.77-6.43,P=2.19×10-4),在TCGA数据库中,其基因型与初筛阶段关联方向一致且有统计学意义(HR=1.82,95%CI=1.08-3.04,P=0.023),而其对应主基因PCDHGA1表达水平与乳腺癌预后无关。此外,我们还发现2q35区域的低频错义位点rs150878701(USP37,p.Pro328Arg)可显著增加乳腺癌死亡风险(HR=2.62,95%CI=1.54-4.60,P=7.43×10-4),在TCGA数据库中,其对应主基因USP37的表达与乳腺癌预后有关(HR=1.33,95%CI=1.10-1.61,P=0.003),且USP37在乳腺癌癌组织中表达显著增高(P=6.00×10-8)。分层分析显示位点rs150878701与PR状态相关,在PR阳性的人群中,rs150878701可增加4.99倍的死亡风险(OR=5.99,P<0.001),而在PR阴性的人群中,其与总生存期无关(P=0.373)(异质性检验P=0.015)。在基因水平的关联分析中,我们发现了77个与乳腺癌预后相关的基因(P<0.05)。经过两阶段研究,我们最终发现2q35和5q31.3区域的低频错义位点与乳腺癌预后显著相关,且其基因型或(和)表达水平在TCGA数据库中关联一致。同时,研究还提示了一批新的可能影响乳腺癌患者预后的关键基因。本研究结果对深入理解乳腺癌的预后机制,发现新的中国汉族人群乳腺癌预后相关生物标志物,评估患者预后及指导乳腺癌患者个体化治疗具有重要的理论意义和应用价值。