多层集成方法在蛋白质和RNA修饰位点识别中的应用研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:eyeknee1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于机器学习的生物信息学预测模型对于深入了解生物过程、探索未知分子的生物功能、药物研发以及疾病的治疗与预防等均具有重要的意义。与传统的生物化学实验相比,基于机器学习的方法具有成本低、耗时短的优势,因而在蛋白质以及RNA等生物大分子位点识别方面取得了较大的进展。为进一步揭示生物序列数据的内在规律,迫切需要发展新的计算方法来提高预测模型的性能。本文通过设计层次化的集成学习策略,结合特征提取、特征选择等步骤对蛋白质S-亚磺酰化位点和RNA假尿苷位点的识别问题,分别建立了预测模型以提高其预测结果的稳定性和准确性,主要成果如下:(1)针对蛋白质S-亚磺酰化位点的识别问题,设计了基于双层集成学习方法的Fu-SulfPred模型。首先利用氨基酸的五种理化性质以及特定位置的氨基酸含量两种特征提取策略将生物序列转换为数值向量。在此基础上,给出一种基于类别的采样算法将原训练数据进行平衡处理,然后利用C4.5、CART和BFT三种决策树为基分类器进行第一层随机森林的构建,将该层输出的类分布信息作为训练数据进行第二层随机森林的训练,最终以投票的方式确定待识别样本的类别信息。通过实验分析了各个参数对模型性能的影响,并与现有的S-亚磺酰化位点预测模型进行性能对比分析。(2)针对RNA假尿苷位点预测问题,构建多层集成学习策略的iPseU-Layer模型。该模型利用核苷酸组成、核苷酸对组成、三核苷酸组成、位置特异性三核苷酸倾向以及核苷酸化学性质在内的五种特征提取方法将生物序列转换为数值向量。iPseU-Layer模型包含三种不同的集成学习层:特征选择层、特征提取与融合层和预测层,其中特征选择层利用CFS算法以降低原特征空间的维度;特征提取与融合层基于六种基分类器进行子集成分类模型的训练,并将每个子集成分类模型的投票结果与输入特征进行融合形成新的特征数据,用于下一层的训练;预测层主要基于传统的随机森林算法对样本类别进行投票预测。通过Jackknife测试、五折交叉验证测试和独立测试集测试实验分析表明,所设计iPseU-Layer预测模型具有更强的假尿苷位点识别能力。
其他文献
近年来,随着人工智能、新能源、新材料等高新技术的飞速发展,无人船作为一种具备自主航行和决策能力的智能平台正随着发展的浪潮方兴未艾,在应对气候及海洋环境变化、人员需
目的观察褐藻胶寡糖(AOS)对野百合碱诱导的大鼠肺动脉高压模型P选择素表达的影响及可能机制。方法60只雄性SD大鼠根据随机数字表法分为正常组(Control)组、模型组(MCT)组、前
目的探讨转录因子T-bet、GATA-3及相关细胞因子在经呼吸道感染马尔尼菲青霉病小鼠的表达情况,初步探索PM感染后机体免疫反应产生类型。方法24只雌性BALB/C小鼠按随机数字表法
目前,防城港市已建成万吨级以上泊位53个,其中20万吨级泊位4个,与190多个国家和地区的250多个港口通商通航,港口货物吞吐量连续8年保持亿吨水平。21世纪是海洋的世纪,建设现
高血压是引起心血管疾病的重要因素,而在很长时间内对血压的测量都依赖于传统诊室的间歇式测量方式,为了实现高血压的准确监测和管理,针对传统血压测量方式和无创连续血压测
学习历史,离不开对时间的了解和掌握,因为历史学这一活动,本身就是在过去与现在之间,以及在过去的不同时刻之间无尽的来回往复的过程。纪年是人们给年代起名的方法,在中国,主
“巴黎水”作为全球知名的气泡水品牌,在海外市场备受推崇,到了中国,人们对它也是青睐有加。本文试图以巴黎水品牌在中国市场的营销策略为研究对象,通过文献研究提炼出撰写本文的相关概念和相关理论;用总结归纳法得出高端水市场当前的竞争环境及未来的发展形势;利用市场调研数据,从消费特征、消费动机和消费偏好等三个方面分析消费者的心理和消费行为;结合STP和4Ps的营销理论,以理论与实践相结合的方法解析巴黎水品牌
敦煌文献是研究吐蕃时期历史的第一手史料,而通过古藏文契约文献,可以探知那时期的社会生活。相比于P.T.1288吐蕃大事纪年以及P.T.1287吐蕃赞布世系文献,契约文献没有讲吐蕃
脑电图(electroencephalogram,EEG)是具有混沌特性的信息,本次实验的主要内容是用排列熵(permutation entropy,PE)和加权排列熵(weighted-permutation entropy,WPE)两种非线
为了应对当前我国装配式住宅发展缓慢的困境,帮助政府加速促进装配式住宅产业化带来的外部效益提升,也为了消除开发商在选择装配式建造模式时积极性低迷的问题。就需要对装配