论文部分内容阅读
在过去的几十年间,机器学习方法在生物信息领域获得了强劲的发展动力,成为解决许多生物学问题的重要方法。在生物信息学中,无论是基因识别,还是DNA序列上的功能位点和特征信号的识别,或者是蛋白质序列特征分析,都需要用到机器学习和模式识别技术。本文的工作围绕模式识别的两个关键问题,特征提取和模式分类,对生物序列(包括蛋白质序列和核酸序列)进行深入的分析和分类,以解决蛋白质的亚细胞定位,同源蛋白查找,细菌Ⅲ型分泌系统的分泌蛋白预测以及新的非编码RNA预测等问题。本文的主要贡献在以下几个方面。1)借鉴中文自然语言处理中的分词技术,提出了一种新的蛋白质序列特征提取方法。我们从蛋白质的氨基酸序列中挑选具有统计意义的子序列构成词典,并将氨基酸序列切分为互不重叠的词,通过统计各个词的出现频率获取蛋白质的特征。相比于传统的氨基酸多联体频率法,所提方法所生成的特征向量具有维数低、准确性高的优点。我们将其应用到蛋白质亚细胞定位和同源蛋白查找中,取得了良好的效果。2)针对细菌Ⅲ型分泌系统分泌的效应蛋白序列相似度低和空间结构不稳定的特性,我们首次利用二级结构和溶剂可接触性信息以及氨基酸组份信息预测未知的效应蛋白,在假单胞菌基因组上进行交叉验证,取得了较高准确率,并对根瘤菌的四个不同菌株的基因组进行了预测,得到一批新的效应蛋白。3)针对蛋白质定位问题的样本不平衡和多点定位问题,采用最小最大模块化支持向量机解决这一多标号不平衡问题。该方法相比于传统的支持向量机,在总体准确率和类平均准确率指标上均有提高;同时,该方法也大大缩短了训练时间,可用于大规模的数据集。4)为最小最大模块化支持向量机提出一种新的基于生物领域知识(物种分类和基因本体注释信息)的任务分解方法,该方法与随机划分和其他划分方法相比具有性能稳定,准确率高的优点。5)基于比较基因组学方法,抽取多种植物全基因组序列的基因间隔区,并通过序列比对得到在多个植物基因间隔区中保守的序列片段,对这些片段进行预测,并经过一系列的筛选步骤,得到共计21个新的非编码RNA,分为16个家族。这些新家族均通过生物实验验证其表达性。