论文部分内容阅读
[目的]: 冠心病是世界上发病率和死亡率最高的疾病之一,其遗传机制涉及众多基因间复杂的非线性相互作用。传统的单基因分析方法仅能发现效应显著的主效应基因,往往遗漏了上位基因互作效应遗传力组分的分析。本研究目的是探索基于先验知识的全基因组基因互作分析和网络分析方法,并应用于Wellcome Trust CaseControl Consortium(WTCCC)提供的冠心病全基因组单核苷酸多态(SNP)数据分析,识别冠心病的枢纽易感基因和挖掘冠心病风险功能模块。 [方法]: 1.以人类蛋白质一蛋白质互作知识和数据库为引导从WTCCC数据中提取候选基因集,通过单体型全模型logistic回归模型检验获得经多重检验校正统计学显著的基因互作对子,并由此构建冠心病特异性基因互作网络。 2.运用Kolmogorov—Smirnov(KS)拟合优度检验判断网络的无标度性质,并根据连通度分布情况和泊松分布检验确定网络核心基因及其统计学显著性来探讨网络属性。 3.进一步应用Newman网络分解算法获取其中的高度模块化的网络模块,并利用logistic核机器回归模型对各连通子图及功能模块的致病风险进行评估。 [结果]: 1.应用logistic回归模型对纳入的18081候选基因对的SNP对子进行了互作效应筛查,共发现了766互作基因对子与冠心病显著相关(Bonferonni校正后P<0.05),其中包含可引起血管病变的基因对子PLG-CP,具有肿瘤抑制作用的对子LIAS4-TP53等。以上述基因互作信息为基础构建了冠心病特异性基因网络。 2.所建网络包含303个连通子图,最大子图包含190个基因,最小子图包含2个基因;多数连通子图规模较小。本文选取节点数10以上的6个子网进行分析,发现均符合无标度网络特性。 3.对以上6个连通子图进行功能富集分析,发现其功能学属性涉及GO条目蛋白激酶及磷酸化过程(GO:0006468、GO:0045859等)、转录调控相关过程(GO:0006357等)、基因表达调控(GO:0010628等)等生物学过程,核腔(GO:0031981等)等细胞组分和蛋白激酶活性(GO:0004715等)等分子功能;涉及KEGG通路VEGF(血管表皮生长因子,hsa04370)、MAPK(丝裂原活化蛋白激酶,hsa04010)等4个信号通路、8个肿瘤疾病相关通路(如hsa05220、hsa05221等)以及FcγR调节吞噬作用通路(hsa04666)。 4.根据以上功能富集结果,我们将6个连通子图分别命名为调控网络(Subnet1)、细胞凋亡网络(Subnet2)、核浆元件网络(Subnet3)、蛋白质磷酸化网络(Subnet4)、神经递质传导网络(Subnet5)、及MAPK信号网络(Subnet6)。Logistic核机器回归模型检测发现核浆成分网络(Subnet3,P=0.002)和神经递质传导网络(Subnet5,P=0.045)与冠心病有关联。 5.最后,运用Newman谱分解算法分析最大连通子图,提取了15个网络模块(modules),其中多数符合无标度网络特性。Logistic核机器回归模型发现以PRKCA为核心基因的功能模块Mod14(包含9个基因)与冠心病有关联(P=0.032)。 [结论]: 本研究提示冠心病致病分子机制涉及多个生物学过程或通路,既包括众所周知的VEGF通路、细胞凋亡过程,也包括新发现的蛋白磷酸化等表观遗传学过程。本研究同时揭示冠心病可能与多种恶性肿瘤疾病、类风湿疾病共享分子机制。