基于随机森林的有害同义突变预测方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:vkw74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于密码子的简并性,同义突变并不改变最终的氨基酸序列,所以它在过去一直被认为是沉默的,是不会对生物个体产生任何影响的。但现在越来越多的实验已经证明同义突变可以通过不同的机制如密码子使用偏好性,翻译效率等扰乱基因的表达和细胞的功能进而影响疾病发生发展过程。同时,由于致病性的同义突变的发病率较低,如何正确区分致病性和中性的同义突变具有一定的挑战性。近年来虽然已经开发了许多用于预测单核苷酸突变体的功能影响的方法和工具,专门设计用于预测同义突变的工具却非常少,而且这些方法的预测性能还需进一步提升。根据当前同义突变预测方法的研究现状,我们首先从数据和特征层面构建了一个有较优性能的预测模型 IDSV(Identifying Deleterious Synonymous Variants),然后从算法层面上对其进行优化得到模型IDSV-Ⅱ(Identifying Deleterious Synonymous Variants-model Ⅱ)以进一步提升预测性能。在数据及特征层面,首先通过采用来源可靠的均衡的训练集数据,量化得到丰富的有较高分类能力的特征,并利用序列后向选择方法得到了最优特征子空间,最后使用合适的分类器随机森林算法构建了一种新的预测模型IDSV来预测有害同义突变。实验结果表明,IDSV与SilVA,DDIG-SN,TraP,CADD和FATHMM-MKL这几个预测突变有害性的工具相比更有优势。此外,实验结果也表明保守性,剪切以及翻译效率对于识别有害同义突变的作用较大。虽然功能区域注释和序列特征的分类预测能力不是很强,但它们能够在与其他预测特征相结合时正确区分有害和良性同义突变体。因此保守性,剪切,序列,翻译效率以及功能区域注释特征都有利于预测有害同义突变。在算法层面,基于上述简单的预测模型IDSV,对其分类器进行了改进得到模型IDSV-Ⅱ以优化预测性能。首先由于实验数据较少,参考五折交叉验证分割数据的方式将训练集切割形成五个子训练集和对应的五个子验证集,并随之构建了五个子随机森林模型。其次,随机森林是一个基于决策树的bagging类型的集成学习算法,可能会集成一些与目标分类结果相关性较弱且相互之间冗余性较强的子树,因此根据子验证集的结果对每个子随机森林模型中的子树进行了相关性和冗余性筛选,并最终集成得到优化后的随机森林模型IDSV-Ⅱ。两项综合指标F-measure和AUC结果表明IDSV-Ⅱ与之前提出的模型以及现有的几个预测工具相比性能有所提升。近年来,生物医学研究人员对同义突变相关研究越来越关注,这就使得同义突变的数据在不断的扩充,各项同义突变的致病机理的研究工作也在不断地展开,而本课题组构建的有着良好分类性能的同义突变预测模型(IDSV和IDSV-Ⅱ)将会对他们的研究工作提供极大的便利。同时在个性化精准医疗快速发展的今天,这些方法也能作为一种有效的辅助疾病诊断和预防的手段。
其他文献
调度问题是一类极其特别且多元化的组合优化问题,广泛应用于生活中的各个方面,如物流、加工制造业等。研究调度问题的主要目的是合理分配有限的资源,使得资源在分配过程中井
本文以Ca1-xSi合金前驱物与氮化物作为原材料,分别采用硼化铈,硼化铕和氧化铈作为激活剂,利用常压氮化法合成了Ca1-xAl Si N3:xCe3+(记为CASN:Ce3+@CeB6与CASN:Ce3+@CeO2)系
光和物质相互作用系统中的量子效应是量子光学领域的热点研究课题。经过几十年理论和实验上不断研究和探索,许多重要的量子现象被揭示出来。利用量子光学理论,人们构造出了一
包含在富硅-氮化硅薄膜内的硅量子点,由于其具有量子限制效应的特性,经过合理的设计尺寸可实现在各波长段可调,而且可以极大地提高发光效率以及太阳能电池的光电转换效率,使
乳酸乳球菌在工业生产的过程中会产生乳酸,而乳酸的积累会导致发酵液的酸化,进而影响菌体的生长和生产。非编码sRNA作为细菌体内重要的转录后调控因子,在应对多种环境的胁迫
随着我国综合实力的不断增强,国家提出并积极促进实施经济走廊建设及“一带一路”等重大决议。其中,“一带一路”优先需要开展的方向则是完善我国的基础设施,并使其实现与毗
近年来,城市轨道交通以其运输效率高、安全环保等优势成为了我国解决城市拥堵问题的重要发展方向。但在其快速发展的同时,安全运营也面临着新的挑战。为了保证现有城市轨道交通的安全运营及远期城市轨道交通线网的科学规划,管理者和规划者必须了解现有网络的脆弱性水平,才能找到降低网络脆弱性的方法。本文首先从网络物理结构和运行状态两个角度将城市轨道交通网络脆弱性分为静态脆弱性和动态脆弱性。复杂网络理论为城市轨道交通
本文研究了纤锌矿AlyGa1-yN/AlxGa1-xN三角量子阱中极化子能量和极化子效应(或叫极化子能移),以图像的形式给出纤锌矿量子阱中极化子基态能量、跃迁能量以及极化子效应随流体静
在现实论审判活动当中,案情复杂难以裁判对于法官而言已是较为普遍论论情况,而法官在面对诸多论疑难案件时又不能通过拒绝裁判论方式逃避责任。作为公民权利最后论保障,诉权
本文首先简单地介绍了粒子物理学、高能物理实验及正负电子对撞实验的历史和现状,介绍了高能碰撞间歇与分形研究中的一些重要的概念和理论;其次,对e~+e~-对撞的事件产生器、