人类致病同义突变集成学习预测方法研究及其数据库构建

来源 :安徽大学 | 被引量 : 0次 | 上传用户:letter0110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于不改变蛋白质的氨基酸序列,同义突变曾被认为是一种没有功能的单核苷酸突变。但随着测序技术的发展和相关研究的深入,近年来,同义突变已被证实与多种疾病的发生发展密切相关。但是,传统的鉴定同义突变功能的生物实验方法存在通量低和代价高等问题。近年来,研究人员开展了基于计算方法的致病同义突变预测研究,但这些方法存在一定的局限性,例如:缺乏充足的训练数据、多种方法预测结果不一致和预测精度仍然有待提升等。此外,多种突变数据库和基因组算法碎片化和异质性使得获取系统的致病同义突变信息具有挑战性。针对这些问题,本文开展了以下工作:(1)基于特征表示学习的致病同义突变预测方法研究。通过探索四组特征(功能打分、保守性、剪切和序列特征),并分别使用8种机器学习分类器对每组特征进行训练,最终得到32个基分类模型。而后分别根据4组特征对应基分类模型的预测性能,选择将4种最优基分类模型的预测概率作为特征向量并输入逻辑回归分类器,构建了基于集成框架的精确预测方法En DSM。与其他方法相比,本方法在独立测试数据集上的性能较优。En DSM网页服务接口以及基准数据集详见:http://bioinfo.ahu.edu.cn/En DSM。(2)致病同义突变预测方法的比较与整合研究。首先从算法使用、特征表示、性能评估和软件可用性等方面系统地比较了10种计算方法(包括针对致病同义突变的特异性方法和单核苷酸突变的广谱性方法)。然后构建了2个高质量基准独立测试数据集,并据此评估了这些计算方法识别致病同义突变的鲁棒性和可扩展性。最后基于评估结果,使用概率平均方法通过对3个性能较好且相关性较低方法的整合,构建了一致性打分整合模型Pr DSM。基准测试集上的结果表明,该方法优于其他工具。Pr DSM预测工具详见:http://bioinfo.ahu.edu.cn:8080/Pr DSM。对于致病同义突变预测方法的全面比较分析,可以作为一个有效的指导启发致病同义突变预测计算方法未来的发展。(3)更加完备的致病同义突变数据库构建。更新和发展了2016年开发的致病同义突变数据库(db DSM),构建了第二版致病同义突变数库db DSM v2.0。首先整理了约18,000篇同义突变相关文献摘要,并进一步对1,000多篇文献进行了全文审查。与第一版数据库相比,db DSM v2.0数据库中新增了致病同义突变数据并且提供了更多基础注释信息,包括转录本和人类基因组变异协会规定的突变命名。在同义突变数据更新的基础上,增加了六个类别的新注释特征,包括功能打分、保守性、剪切、翻译效率、转录因子结合位点和序列特征。基于这些特征注释信息,使用投票方法对六类特征进行整合,构建了一个致病性打分系统并将全基因组范围内高置信度打分的潜在致病同义突变整合到db DSM v2.0中。此外,基于该打分系统对TCGA来源的28种癌症类型进行分析,筛选出潜在的预后标志物。db DSM v2.0详见:http://bioinfo.ahu.edu.cn:8080/db DSM/index.jsp。
其他文献
学位
学位
压力信念与其他影响压力的变量不同(例如个体正在经历压力的严重程度、数量以及个体的应对方式等),它与个体当前是否受到压力无关,而是指个体对压力赋予的一种属性和预期。医学生作为特殊的大学生群体,面临着专业知识多,行业标准高,学业任务重、就业压力大等多因素高强度的压力环境中,会产生极大的心理压力,对其心身健康产生不利的影响。而作为对压力的认知和预期,医学生的压力信念十分值得关注。以往的研究多关注医学生压
学位
依据国家统计局公布的《数字经济及其核心产业统计分类(2021)》,数字经济产业划分为四类:数字产品制造业、数字要素驱动业、数字产品服务业和数字技术应用业。基于投入产出法,从融合贡献和融合互动视角,构建直接融合度、综合融合度和改进型融合互动指数,对数字经济产业与制造业的融合进行测度,结果表明:首先,从数字经济部门整体看,直接融合度与制造业技术密集程度成正比;综合融合度在排名上呈现出与直接融合度相一致
为了优化黄精总蛋白的提取工艺,试验采用碱液提取盐酸沉淀的方法提取黄精总蛋白,考马斯亮蓝法测定黄精蛋白含量。以黄精蛋白提取率为指标,将提取液的料液比、提取时间、提取次数、pH作为单因素来考察,通过单因素试验确定各因素水平。在单因素试验的基础上,利用响应面分析法优化碱提酸沉法提取黄精蛋白的最佳工艺。采用高效液相色谱法测定黄精中氨基酸种类。结果表明,最佳条件为料液比1︰5.6 (g/mL)、提取时间3.
在核心素养时代,为更好地激发学生学习的内源动力、有效析出英语语言的文化蕴含,小学英语教学设计亟须强化四种根底意识,即目标意识、学生意识、文化意识与活动意识。目标意识的实现要回应三个基本命题:"要到哪里去""如何到那里去""是否已到达那里";学生意识的落实重在两个分析:学生的差异性及其需求的有效性分析、单元课时内容与学生成长的关联性分析;文化意识的渗透隐现于对文本内容的深度设计;活动意识的实现要略有
蒸汽辅助重力泄油法(SAGD)是加拿大油砂开发中的一项重要的开采技术。其机理是在水平井中注入蒸汽,蒸汽受压力和温度的影响,向上及侧面扩展形成蒸汽腔,并与油砂中的原油产生热交换,加热后的原油和蒸汽冷凝水靠重力作用泄到下面的水平生产井中产出,因此对蒸汽腔的精准预测是油藏开发中的重要任务。本文基于时移多波多分量地震数据,采用岩石物理时移模拟、时移纵横波联合叠前反演和多属性回归与神经网络串联反演相结合的技
2005年馆陶油藏开始实施SAGD先导试验,试验的成功离不开油藏监测系统提供的大量数据跟踪,为其他生产井顺利转驱提供了依据,也解决了馆陶油藏开发中存在的各种问题。观察井光纤测井温技术在SAGD调控中最为稳定,数据最准确,观察井定期管内测井温解决了实时数据失准的情况,并结合动静态资料判断出汽腔扩展过程中遇到的低物性段的问题,对比低物性段改造试验前,井组日产提高40t;时移微重力监测能有效监测出剩余油