MicroRNA识别及其与疾病关联的预测算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liqihua2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
microRNA(miRNA)是一类长度约为22nt(核苷酸)的内源非编码RNA,在动植物许多重要的生命过程中起着关键的调控作用,并且与肿瘤等多种疾病的发生发展密切相关。生物信息学在miRNA的研究中起到了重要作用,极大地推动了该领域的迅速发展。本文主要研究miRNA相关问题的计算预测方法,对miRNA前体分类预测、miRNA成熟体位置预测、疾病关联的miRNA预测等问题进行了深入的研究,取得了一些创新成果。主要包括以下四方面的内容:(1)研究了高效的基于支持向量机的miRNA前体分类预测方法。研究miRNA的功能需要先找到miRNA。通过生物实验识别miRNA的方法是耗时和昂贵的,并且难于发现那些表达量较低或者只在特定组织或发育阶段表达的miRNA。因此,使用计算预测方法筛选可能的miRNA候选集合,可以为生物实验提供指导和参考,对推动miRNA的识别具有重要意义。本文结合miRNA前体的特点,提出了基于支持向量机的miRNA前体分类预测方法。好的特征和正反例(真/假miRNA前体)数据集合是建立高效的分类预测模型的基础。因此,本文从真/假miRNA前体中提取得到序列相关特征、结构相关特征和能量相关特征。提出了基于遗传算法的特征选择方法,选取了有代表性的特征子集。由于植物miRNA前体反例数据集的匮乏,本文首次从拟南芥、水稻、大豆的蛋白质编码序列中提取类似茎环的序列作为假miRNA前体序列,并建立反例数据集。针对真/假植物miRNA前体类别不平衡问题,结合集成学习和AdaBoost思想建立了集成分类器PlantMiRNAPred。PlantMiRNAPred分别在拟南芥、水稻、毛果杨、小立碗藓、苜蓿、高粱、玉米和大豆等8个物种中取得了超过90%的准确率,对植物miRNA前体的识别研究具有重要价值。此外,我们还使用人类miRNA前体的数据建立了分类模型HumanMiRNAPred,该模型也取得了更高的预测性能,有助于推动人类miRNA前体的识别研究。(2)研究了准确的miRNA成熟体位置预测方法,能够为新预测得到的miRNA前体候选,预测其中成熟体的位置。基于机器学习的miRNA前体分类预测方法,通常只能预测分类新的miRNA前体,无法预测其中miRNA成熟体的位置。然而,在进行后续生物实验验证前,通常需要给出其中miRNA成熟体的位置,因此本文提出了基于支持向量机的miRNA成熟体位置预测方法。首先将miRNA:miRNA*作为一个整体,以更好的反映miRNA及miRNA*相互结合的特点。其次,从真/假miRNA:miRNA*中提取特征并选取得到有代表性的特征子集。第三,针对真/假miRNA:miRNA*数量相差悬殊的问题,提出了两阶段样本选择方法,依据反例样本(假的miRNA:miRNA*)的分布密度和样本的预测误差,选取有代表性的反例样本,建立miRNA成熟体位置预测模型MaturePred。与现有的方法相比,MaturePred取得了更准确的预测性能,能够为后续生物实验提供更可靠的动植物miRNA成熟体候选。(3)结合miRNA功能相似性的准确度量,提出基于k个最相似miRNA结点的疾病关联miRNA预测算法。miRNA调控的异常是导致肿瘤等多种疾病的重要原因,因此研究miRNA与疾病的关联对研究发病机理是非常重要的。研究表明功能相似的miRNA通常参与相似疾病的过程,即与相似的疾病关联,反之亦然。于是可以通过度量与两个miRNA相关的两组疾病间的语义相似性,评估两个miRNA间功能相似性。本文通过考虑每个疾病术语的信息含量,进一步改进了miRNA功能相似性的度量。提出了基于k个最相似的邻居miRNA结点的疾病关联miRNA预测算法HDMP,该方法可以系统的预测与特定疾病关联的miRNA候选。此外,结合同属于一个miRNA家族或miRNA分簇中的miRNA间功能更相似的特点,在预测时进一步考虑miRNA家族和分簇的信息,提出了预测算法HDMPW。针对18种人类常见的疾病,证实了HDMP和HDMPW能够有效预测疾病关联的miRNA候选。随着miRNA和疾病关联数据的快速增长,HDMP未来可以扩展到其它人类疾病的预测。(4)在建立miRNA功能相似性图的基础上,提出基于随机游走的疾病关联miRNA预测算法。在计算miRNA间功能相似性的基础上,建立miRNA功能相似性图。将疾病关联miRNA的预测问题转换为随机游走问题,提出了基于随机游走的预测算法HDMPR。与HDMP和HDMPW不同的是,HDMPR在预测时不是考虑了k个最相似邻居结点的信息,而且考虑了miRNA功能相似性图的全局结构信息。使用18种人类常见的疾病与miRNA的关联数据,验证了HDMPR方法的有效性。实验结果表明,对于多数的疾病而言,HDMPR取得了比HDMP和HDMPW更好的预测性能。总体来说,HDMP、HDMPW、HDMPR均能够为后续生物实验,提供可靠的与特定疾病关联的miRNA候选,为生物学家进一步验证可能的疾病关联miRNA提供指导作用。
其他文献
目的探讨ICU内脓毒症患者并发肝损伤的危险因素及影响脓毒症肝损伤患者预后的相关因素,为防治脓毒症肝损伤提供理论依据。方法回顾性分析大连医科大学附属第一医院重症医学科
<正>广西中烟工业有限责任公司柳州卷烟分厂(以下简称为分厂)为改善作业现场环境、提高设备效能,促进基础管理的不断提升,从2008年开始推行5S管理,从而全面提升员工素质和精
高新技术企业应当深入了解研发费用核算特点,有的放矢地进行研发费用核算体系设计,使企业顺利通过三年复审,并充分享受国家税收优惠政策。
探讨分娩镇痛方法研究的新进展,以促进和推动我国分娩镇痛技术的发展,本文就国内外常用的镇痛分娩方法研究进展进行了总结。
餐饮企业的内部控制一直较为薄弱,随着信息技术的发展,将信息化建设作为完善餐饮企业内部控制的主要手段来实施将会起到很好的效果。本文以内部控制的若干环节为例,初步探讨
共享经济与分享经济已经深入到个人生活的方方面面,深刻改变了人们的生产生活方式、消费理念和就业模式,已成为不可阻挡的时代发展趋势。共享经济和分享经济的概念既有联系也
加强公共安全建设是构建和谐社会的重要内容,同时也是让人民群众心安的重要举措。目前我国的公共安全建设还存在诸多问题,既有经济片面发展的原因,也有政府管理不到位的原因;
案例研究法是当前国际通用的科学研究方法之一,自20世纪80年代引入我国以来,逐渐受到国内学者的广泛关注及应用。文章首先从数量上进行统计,介绍了案例研究法在我国的应用情
<正>0前言鲁西化工股份有限公司(以下简称鲁西公司)一分厂以生产合成氨、尿素、复合肥为主,为了满足生产和环保的需要,新建了1个处理能力为4000m3/d(170m3/h)污水处理站,该工