论文部分内容阅读
microRNA(miRNA)是一类长度约为22nt(核苷酸)的内源非编码RNA,在动植物许多重要的生命过程中起着关键的调控作用,并且与肿瘤等多种疾病的发生发展密切相关。生物信息学在miRNA的研究中起到了重要作用,极大地推动了该领域的迅速发展。本文主要研究miRNA相关问题的计算预测方法,对miRNA前体分类预测、miRNA成熟体位置预测、疾病关联的miRNA预测等问题进行了深入的研究,取得了一些创新成果。主要包括以下四方面的内容:(1)研究了高效的基于支持向量机的miRNA前体分类预测方法。研究miRNA的功能需要先找到miRNA。通过生物实验识别miRNA的方法是耗时和昂贵的,并且难于发现那些表达量较低或者只在特定组织或发育阶段表达的miRNA。因此,使用计算预测方法筛选可能的miRNA候选集合,可以为生物实验提供指导和参考,对推动miRNA的识别具有重要意义。本文结合miRNA前体的特点,提出了基于支持向量机的miRNA前体分类预测方法。好的特征和正反例(真/假miRNA前体)数据集合是建立高效的分类预测模型的基础。因此,本文从真/假miRNA前体中提取得到序列相关特征、结构相关特征和能量相关特征。提出了基于遗传算法的特征选择方法,选取了有代表性的特征子集。由于植物miRNA前体反例数据集的匮乏,本文首次从拟南芥、水稻、大豆的蛋白质编码序列中提取类似茎环的序列作为假miRNA前体序列,并建立反例数据集。针对真/假植物miRNA前体类别不平衡问题,结合集成学习和AdaBoost思想建立了集成分类器PlantMiRNAPred。PlantMiRNAPred分别在拟南芥、水稻、毛果杨、小立碗藓、苜蓿、高粱、玉米和大豆等8个物种中取得了超过90%的准确率,对植物miRNA前体的识别研究具有重要价值。此外,我们还使用人类miRNA前体的数据建立了分类模型HumanMiRNAPred,该模型也取得了更高的预测性能,有助于推动人类miRNA前体的识别研究。(2)研究了准确的miRNA成熟体位置预测方法,能够为新预测得到的miRNA前体候选,预测其中成熟体的位置。基于机器学习的miRNA前体分类预测方法,通常只能预测分类新的miRNA前体,无法预测其中miRNA成熟体的位置。然而,在进行后续生物实验验证前,通常需要给出其中miRNA成熟体的位置,因此本文提出了基于支持向量机的miRNA成熟体位置预测方法。首先将miRNA:miRNA*作为一个整体,以更好的反映miRNA及miRNA*相互结合的特点。其次,从真/假miRNA:miRNA*中提取特征并选取得到有代表性的特征子集。第三,针对真/假miRNA:miRNA*数量相差悬殊的问题,提出了两阶段样本选择方法,依据反例样本(假的miRNA:miRNA*)的分布密度和样本的预测误差,选取有代表性的反例样本,建立miRNA成熟体位置预测模型MaturePred。与现有的方法相比,MaturePred取得了更准确的预测性能,能够为后续生物实验提供更可靠的动植物miRNA成熟体候选。(3)结合miRNA功能相似性的准确度量,提出基于k个最相似miRNA结点的疾病关联miRNA预测算法。miRNA调控的异常是导致肿瘤等多种疾病的重要原因,因此研究miRNA与疾病的关联对研究发病机理是非常重要的。研究表明功能相似的miRNA通常参与相似疾病的过程,即与相似的疾病关联,反之亦然。于是可以通过度量与两个miRNA相关的两组疾病间的语义相似性,评估两个miRNA间功能相似性。本文通过考虑每个疾病术语的信息含量,进一步改进了miRNA功能相似性的度量。提出了基于k个最相似的邻居miRNA结点的疾病关联miRNA预测算法HDMP,该方法可以系统的预测与特定疾病关联的miRNA候选。此外,结合同属于一个miRNA家族或miRNA分簇中的miRNA间功能更相似的特点,在预测时进一步考虑miRNA家族和分簇的信息,提出了预测算法HDMPW。针对18种人类常见的疾病,证实了HDMP和HDMPW能够有效预测疾病关联的miRNA候选。随着miRNA和疾病关联数据的快速增长,HDMP未来可以扩展到其它人类疾病的预测。(4)在建立miRNA功能相似性图的基础上,提出基于随机游走的疾病关联miRNA预测算法。在计算miRNA间功能相似性的基础上,建立miRNA功能相似性图。将疾病关联miRNA的预测问题转换为随机游走问题,提出了基于随机游走的预测算法HDMPR。与HDMP和HDMPW不同的是,HDMPR在预测时不是考虑了k个最相似邻居结点的信息,而且考虑了miRNA功能相似性图的全局结构信息。使用18种人类常见的疾病与miRNA的关联数据,验证了HDMPR方法的有效性。实验结果表明,对于多数的疾病而言,HDMPR取得了比HDMP和HDMPW更好的预测性能。总体来说,HDMP、HDMPW、HDMPR均能够为后续生物实验,提供可靠的与特定疾病关联的miRNA候选,为生物学家进一步验证可能的疾病关联miRNA提供指导作用。