抗体组库测序数据分析平台构建及其应用

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:nanpingke11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抗体是以分泌形式存在的B细胞受体,是适应性免疫的重要组成部分,具有极高的序列多样性(约1013),从而有抵御任何病原体入侵的可能。个体内所有抗体的集合称为抗体组库,其动态变化可反映个体的免疫历史以及当前的免疫状态。获得性免疫组库测序技术(Adaptive immune receptor repertoire sequencing,AIRR-seq或Repertoire sequencing,Rep-seq)可一次性获得百万条甚至千万条抗体序列,极大地推动抗体组库在疾病发生、发展以及诊断中的应用,并已积累了海量Rep-seq数据集。整合大数据对疫苗设计、自身免疫性疾病和传染性疾病免疫反应的探索、癌症预后监测等意义重大,然而目前尚未建立有效整合Rep-seq数据集的平台,限制了跨研究或跨平台的数据比较分析与再利用。因此,本研究收集了 2449套Rep-seq原始测序数据集,并采用标准化分析流程进行再分析,提取了基因使用率、体细胞高频突变模式(Somatic hypermutation)、克隆多样性等多种免疫组库特征,最终构建了集查询和分析于一体的在线平台—RAPID(Rep-seq dataset Analysis Platform with an Integrated antibody Database)。基于RAPID,用户可从2449套数据中选择特定样本作为对照,减少数据再利用时繁琐的预处理过程,有助于疾病关联组库特征的鉴定。RAPID还存储了 3.06亿个克隆、521条治疗性抗体和88059条已知功能的抗体,根据抗体CDR3序列,平台能够自动化进行克隆注释,统计注释性抗体对应的疾病构成并进行疾病富集分析。此外,平台同时支持多功能抗体查询和组库查询功能。基于上述收集的2449套Rep-seq数据集,从人群水平探索了公共克隆的分布与功能。本研究将出现在两个及以上个体中,且包含相同CDR3氨基酸序列的抗体定义为公共克隆,共获得507万个公共克隆,单个抗体库中公共克隆占比约为10%。注释结果显示公共克隆中包含治疗性抗体以及病毒中和性抗体;相较于私有克隆,公共克隆中的功能性抗体富集现象更为明显。因此,公共克隆是抗体筛选的有效候选集。此外,我们选取326个病原体感染样本和276个健康对照样本,使用1915个组库水平特征和160个序列水平特征表征各抗体库,经特征选择分别保留了 547个组库水平特征和4个序列水平特征用于构建感染性疾病预测模型—DeepID(Deep learning method for infection diagnosis)。该模型性能显著优于传统机器学习方法,内部测试样本中AUC高达0.9883,应用于COVID-19患者分类时,尽管AUC下降至0.8267,但仍高于参比模型。综上所述,本研究从Rep-seq数据出发,首先整理归纳已有大数据,搭建在线比较分析平台,并借助该数据集进行公共克隆的探索以及感染性疾病预测模型的建立。
其他文献
为顺应可持续发展的政策要求、迎合日益增长的绿色市场需求,越来越多的企业实施绿色创新,通过绿色生产、销售环保产品等方式提升市场竞争力。此外,企业积极寻求与绿色供应链上下游成员合作,降低成本、提高技术、实现利润共赢。本论文运用最优控制理论和博弈论,以能效标准、碳限额、碳关税和政府补贴政策为例,研究了企业在不同环保政策和市场环境下的绿色创新与定价策略,以及绿色供应链上下游企业合作模式偏好。主要内容如下:
高超声速飞行器技术经过多年的发展,超燃冲压发动机热防护技术已成为限制其长时间飞行的关键因素之一。同时未来高超声速飞行器还面临巨大的电力需求,发展高效的机载发电系统也迫在眉睫。超临界二氧化碳循环具有较高的能量转换效率,且结构紧凑、部件体积小,在高超声速飞行器上很有应用前景。因此,本文提出基于超临界二氧化碳的超燃冲压发动机热电转换系统,在满足超燃冲压发动机热防护要求的同时为高超声速飞行器提供电力保障。
学位
第一部分 RANK通过激活内质网应激促进2型糖尿病肾病足细胞损伤的机制研究研究背景糖尿病肾病是临床常见又棘手的肾病,足细胞损伤在糖尿病肾病的进展中起着核心作用,内质网应激是糖尿病肾病足细胞损伤的关键环节。NF-κB受体活化因子(Receptor Activator of NF-κB,RANK)属于肿瘤坏死因子受体超家族。本课题组之前的研究已经证明RANK通过促进氧化应激介导1型糖尿病肾病足细胞损伤
超临界二氧化碳(S-CO2)是一种理想的能量转换工质,实现S-CO2自然循环驱动具有十分重要的实践价值和研究意义。但是在拟临界区内剧烈的物性变化使S-CO2在该区域的流动和换热规律十分复杂,目前尚未形成完善的理论分析方法和体系。本论文采用实验研究、理论分析和机器学习建模等方法对S-CO2自然循环流动与换热问题展开综合研究。本文阐述了 S-CO2自然循环实验台架的设计搭建过程和运行参数范围,并开展了
阿尔茨海默症(Alzheimer’s Disease,AD)是造成老年人残疾和死亡的主要原因之一,给社会家庭和患者本人带来较大的心理、生理、经济负担。预计到2050年,全球AD患者将达到1.5亿以上。然而,AD仍然是一种“无药可治”的疾病,已批准上市的药物不但数量很少,而且只能改善患者症状,并不能根治疾病,不能逆转疾病的病理变化。近年来,研究表明间充质干细胞(Mesenchymal Stem Ce
随着计算机技术的进步和人们物质生活水平的提高,口腔修复诊疗过程中患者的个性化需求越来越多,以至于现有的数字化修复技术在设计质量和效率上无法满足患者的要求。因此,口腔修复体智能化设计技术的应用就显得更加迫切。本文依托口腔临床诊疗专家案例数据库,综合运用多学科交叉的理论与方法,开展医疗大数据驱动的口腔义齿修复体智能化设计技术研究,主要在牙齿分割与识别、缺失牙齿龈缘形态重建、功能性咬合面形态设计、动态调
研究背景及目的:北美地区2020年男性肿瘤统计,前列腺癌(Prostate Cancer,PCa)发病率居第一位,死亡率居第二位,仅次于肺癌。前列腺特异性抗原(prostate-specific antigen,PSA)是前列腺癌(PCa)敏感度较高的肿瘤标志物,随着PSA的普遍推广,前列腺癌病例检出率明显增加。前列腺癌的筛查准确性及后续的治疗方案的正确选择是临床难题。首先,尽管PSA有较高特异性
学位
随着卫星探测技术的发展,近地卫星和航空器上的传感器已经渐渐被高分辨率传感器所取代。高分辨率遥感(high resolution remote sensing,HRRS)图像是重要的基础设施和战略资源,其安全性集中体现在机密性和完整性。机密性指图像信息不被泄露;完整性指的是图像不被篡改或者伪造。一般地,机密性通过图像加密(Image Encryption)来保证,完整性通过图像认证(Image Fo