单表型数据中识别群体水平的差异表达基因

来源 :福建医科大学 | 被引量 : 0次 | 上传用户:xgw111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景和目的:对于心脏和大脑等特殊器官,我们很难获得其正常样本。本研究将仅有疾病样本而无正常对照的数据集定义为单表型数据。对于单表型数据的研究不能使用芯片显著性分析(Significance Analysis of Microarrays,SAM)、limma(Linear Models for Microarray Analysis)和edge R等常规差异表达基因(Differentially Expressed Genes,DEGs)识别方法进行分析。虽然主要用于识别个体水平DEGs的算法RankComp可用于识别单表型数据的群体水平DEGs,但该方法不能提供DEGs的失调方向。因此,本课题拟进一步优化RankComp算法,提高其检测单表型数据的群体水平DEGs的效能。材料和方法:首先,本研究收集了来自公共数据库的心脏组织、脑组织、乳腺组织和结直肠组织样本的基因表达谱数据。对于一种特定组织,本研究分别整合芯片平台不同数据集的正常样本和测序平台不同数据集的正常样本。基于基因在样本内的表达水平相对秩序关系(Relative Expression Orderings,REOs),将在芯片平台和测序平台中交叠且方向一致的基因对定义为可跨平台的正常背景。基于构建的正常背景,利用RankComp算法在缺乏正常对照的单表型数据中识别个体水平DEGs。不同于RankComp算法在推算群体水平DEGs时直接应用所有单表型样本的差异基因频率的均值来估计单表型样本一个基因差异的概率,本研究分别使用基因上调(下调)频率的均值和中位数来估算基因上调(下调)概率,结合累积二项式检验分别识别群体水平的上调(下调)基因,优化后的新算法被称为PhenoComp。接着,应用仿真实验数据和真实数据,本研究比较了RankComp算法和PhenoComp算法识别单表型数据的群体水平DEGs的效能,并以SAM、edge R和limma应用疾病-正常对照两类样本识别的DEGs作为标准来进一步评估PhenoComp算法的效能。最后,本研究还评估了PhenoComp算法在弱差异表达信号数据中的效能。结果:由于不同数据集中DEGs在所有基因中的频率、所有DEGs中上调基因的频率和下调基因的频率分布存在很大的差异,因此本研究提出在分析每套数据集时应当仅用该数据集中DEGs在所有基因中的频率、所有DEGs中上调基因的频率和下调基因的频率来估算该数据集基因在随机情况下发生差异、上调和下调的概率。应用仿真实验数据,本研究分析发现低至5个疾病样本时,RankComp算法无法识别出群体水平DEGs,而PhenoComp算法可以识别群体水平DEGs。当样本数量较大时,PhenoComp算法识别的群体水平DEGs均包含RankComp算法识别的群体水平DEGs。在真实数据中,本研究以SAM、edge R和limma应用疾病-正常对照两类样本识别的DEGs作为“金标准”,结果表明PhenoComp算法仅使用单表型数据识别的群体水平DEGs与“金标准”具有可比性,且该结果不受检测平台的影响。此外,为了在真实数据中比较RankComp算法和PhenoComp算法的性能,本研究定义了RankComp算法识别的群体水平DEGs的失调方向,结果表明RankComp算法识别的方向明确的DEGs均包含于PhenoComp算法识别的DEGs。最后,在弱差异表达信号数据中,SAM和limma方法无法识别出群体水平DEGs,而PhenoComp算法能识别一定数量的群体水平DEGs,且群体水平DEGs富集到与所分析疾病相关的通路。结论:本研究优化了RankComp算法识别单表型数据的群体水平DEGs的能力,优化后的PhenoComp算法的检测效能优于RankComp算法,尤其是在样本数量小的数据中具有较高的检测效能。总而言之,PhenoComp算法是一种分析单表型数据和弱差异表达信号数据的有效算法,且该算法不依赖于数据的检测平台。
其他文献
背景与目的:经皮左心耳封堵(percutaneous closure of left atrial appendage,PCLAA)作为心房颤动患者预防血栓栓塞事件的方法,有效性已经得到肯定,随着封堵器的改良及医疗技术的进步,其安全性也逐渐提高。由于左心耳具有主动收缩、调节左心容量-压力负荷等正常生理功能,封堵左心耳在有效地预防心房颤动的血栓事件发生的同时,是否会因丢失其部分生理功能而对左心结构与
目的:前期临床实验提示L-型钙通道(L-type calcium channels,LTCCs)与高血压和内皮细胞功能异常有关,为此本研究旨在观察LTCCs蛋白各亚基在人脐静脉内皮细胞(HUVECs)上的表达情况,初步探索其通道激动剂及其主要功能亚基Cav1.3 LTCCsα1亚基的编码基因CACNA1D过表达后对HUVECs炎症反应的影响。方法:1.通过q RT-PCR、核酸电泳实验和免疫荧光染
目的研究骨密度(bone mineral density,BMD)与冠状动脉钙化(coronary artery calcification,CAC)之间的相关性。方法研究人群来源于2017年12月到2020年10月在福建省立医院完善BMD检查的7926例患者,筛选出286例同时完善BMD检查及CAC评估的患者,根据排除标准最终纳入153例为入组对象。采用回顾性的方法收集所有入组对象的一般资料如年
背景:主动脉夹层(aoritc dissection AD)是一种死亡率较高的疾病,其主要特点是起病急且病程进展快。许多患者在得到明确诊断前或手术治疗前往往因夹层破裂死亡而失去治疗机会。高血压与AD的发生密切相关,在高血压所带来的机械牵张下,血管平滑肌细胞(VSMC)的表型发生转化,由生理状态下的收缩型向分泌型转化,导致基质金属蛋白酶9(matrix metalloproteinases MMP-
目的:探索NPY与冠心病的发生和发展的关系,及其在吸烟促进冠心病进程中的作用及可能的机制。方法:纳入经冠脉造影明确诊断的冠心病患者128例,其中男性冠心病患者87例,女性冠心病患者41例,同时纳入未见明显脏器损伤的健康体检人员62例作为对照组,其中男性40例,女性22例。冠心病组进行两种亚组分析,其中一种根据造影结果,将冠心病组中冠脉有内膜增厚、血栓形成、侧支生成等复杂病变情况设为冠脉复杂病变组,
目的:1.调查福建医科大学附属第一医院2017年~2020年临床分离的1598株肠杆菌科细菌中mcr-1基因的携带情况,进而研究mcr-1阳性菌株的流行特征及耐药谱,为临床预防和控制质粒介导的多黏菌素耐药基因mcr-1的传播与流行提供参考依据。2.以微量肉汤稀释法为金标准,评价4种不同药敏试验方法检测肠杆菌科细菌多黏菌素药物敏感性的性能,为实验室选择可常规开展的药敏试验方法及指导临床合理用药提供参
【目的】了解成人IHCA(In-Hospital Cardiac Arrest,院内心脏骤停)患者的流行病学特征;分析影响成人IHCA患者ROSC(Return Of Spontaneous Circulation,自主循环恢复)及存活出院的独立影响因素;构建ROSC及存活出院的预测模型。【方法】1.连续入选福建医科大学附属第一医院出院时间为2019年9月7日至2020年9月6日所有住院及入住急诊
EB病毒(Epstein-Barr virus,EBV)是首个被发现的肿瘤相关病毒,鼻咽癌(nasopharyngeal carcinoma,NPC)的发生发展与EBV感染密切相关,复发和转移是晚期鼻咽癌治疗失败的主要原因。通过激活EBV裂解复制来靶向EBV阳性肿瘤细胞的治疗策略对晚期难治性鼻咽癌具有重要的临床价值。热休克蛋白90(heat shock protein 90,Hsp90)在包括鼻咽
目的研究深圳社区人群中tet(X)新型变异体耐药基因的携带率;研究深圳社区人群携带tet(X)新型变异体耐药基因的相关危险因素;阐明人群携带tet(X)新型变异体耐药基因的遗传背景,探讨tet(X)新型变异体的分子传播机制,为进一步明确传播途径及进行公共卫生干预提供参考。方法1.采用横断面研究的方法,在2018年2月1日至2019年12月31日,招募合格的社区人群作为研究对象,通过荧光定量PCR实
目的:调查福建省九个地市区部分二级及二级以上医院低年资手术室护士离职倾向、领悟社会支持、心理弹性、压力负荷及疲劳现状,探讨人口学特征、领悟社会支持、心理弹性、压力负荷及疲劳对低年资手术室护士离职倾向(离开手术室倾向、离开医院倾向及离开护理专业倾向)的影响程度,通过结构方程模型进行分析,构建离职倾向中介效应模型,为医院管理者及手术室护理管理者制定有效干预策略,改善低年资手术室护士流失现状、稳定手术室