基于机器学习方法的生物序列分类研究

来源 :上海交通大学 | 被引量 : 9次 | 上传用户:lisanshuxuejj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年间,机器学习方法在生物信息领域获得了强劲的发展动力,成为解决许多生物学问题的重要方法。在生物信息学中,无论是基因识别,还是DNA序列上的功能位点和特征信号的识别,或者是蛋白质序列特征分析,都需要用到机器学习和模式识别技术。本文的工作围绕模式识别的两个关键问题,特征提取和模式分类,对生物序列(包括蛋白质序列和核酸序列)进行深入的分析和分类,以解决蛋白质的亚细胞定位,同源蛋白查找,细菌Ⅲ型分泌系统的分泌蛋白预测以及新的非编码RNA预测等问题。本文的主要贡献在以下几个方面。1)借鉴中文自然语言处理中的分词技术,提出了一种新的蛋白质序列特征提取方法。我们从蛋白质的氨基酸序列中挑选具有统计意义的子序列构成词典,并将氨基酸序列切分为互不重叠的词,通过统计各个词的出现频率获取蛋白质的特征。相比于传统的氨基酸多联体频率法,所提方法所生成的特征向量具有维数低、准确性高的优点。我们将其应用到蛋白质亚细胞定位和同源蛋白查找中,取得了良好的效果。2)针对细菌Ⅲ型分泌系统分泌的效应蛋白序列相似度低和空间结构不稳定的特性,我们首次利用二级结构和溶剂可接触性信息以及氨基酸组份信息预测未知的效应蛋白,在假单胞菌基因组上进行交叉验证,取得了较高准确率,并对根瘤菌的四个不同菌株的基因组进行了预测,得到一批新的效应蛋白。3)针对蛋白质定位问题的样本不平衡和多点定位问题,采用最小最大模块化支持向量机解决这一多标号不平衡问题。该方法相比于传统的支持向量机,在总体准确率和类平均准确率指标上均有提高;同时,该方法也大大缩短了训练时间,可用于大规模的数据集。4)为最小最大模块化支持向量机提出一种新的基于生物领域知识(物种分类和基因本体注释信息)的任务分解方法,该方法与随机划分和其他划分方法相比具有性能稳定,准确率高的优点。5)基于比较基因组学方法,抽取多种植物全基因组序列的基因间隔区,并通过序列比对得到在多个植物基因间隔区中保守的序列片段,对这些片段进行预测,并经过一系列的筛选步骤,得到共计21个新的非编码RNA,分为16个家族。这些新家族均通过生物实验验证其表达性。
其他文献
作为一类在图像处理、模式识别、最优化问题等领域有广泛应用背景的动力系统,神经网络的动力学行为是其应用和设计的基础。本文主要就其两种动力学行为进行了研究和探讨,其一
网络和信息技术的发展以及受众心理的衍变,带来了电视业新一轮的传播方式的变革。"互动"成为电视的关键词。"互动"观念的提出,为传统电视媒体在媒介竞争环境中寻求到了生存发展的
我国高速铁路的总里程已超过2.2万公里,且同时位于大陆最活跃的地震区中。通过对比高速铁路规划网和国内地震带分布可知,高速铁路不可避免地会通过地震多发区。无砟轨道板在
在化工、冶金、动力、建筑、医药、生物、食品、航天及大气科学等领域,存在大量粒子态物质。典型的含粒子介质包括:含炭黑及飞灰的火焰,催化反应器内反应物,射流及固体火箭尾
论文在总结山西省旱灾特点及规律的基础上,重点分析了旱灾与粮食产量的相关关系,并结合其他影响产量因素建立山西省粮食生产函数。研究结果表明,旱灾对山西省粮食产量的负面
为解决传统K-means算法在处理海量数据时存在的不足,提出了1种适用于并行Canopy-Kmeans算法的迭代式MapReduce模型。通过Canopy算法对数据进行初始聚类,得到初始聚类中心,并
探讨新疆生产建设兵团机采棉加工业的改进方向。通过解析目前新疆生产建设兵团的轧花加工能力,测试分析机采棉与手摘棉的代表性原棉性能,提出了机采棉现有的特点及需要进一步研
在过去的体育社会学研究中,关于理论与实证的研究层面一直有很多模糊的认识直接导致该领域存在一定程度上的操作误区。本文将通过文献研究的方法,将体育社会学中理论层面和实