基于机器学习算法的DNA重组与非编码RNA预测模型研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:dragon121212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物试验数据不断积累的今天,如何将数据变为知识和具有预测和推广功能数学模型将是一项十分具有挑战性和有意义的事情。近代机器学习技术的迅猛发展,为这一研究提供了新的思路。DNA的同源重组和非编码RNA,作为后基因组时代的两个热门话题,受到了各国科学家高度的重视。本文正是利用机器学习方法对这两个话题的几个分支问题进行了研究,其主要工作包括: (1) 真核生物减数分裂过程中,基因组某些区域会发生较其它区域高的重组发生频率,这些区域被称作减数分裂重组热点(Hotspot)。与此相对应,减数分裂重组发生频率较低的区域我们称之为重组冷点(Coldspot)。虽然这些对重组冷热点的影响因素的研究有助于进一步揭示DNA重组的发生机制和成因,但是仅仅通过DNA的序列来预测其发生重组的概率依然是一项相当具有挑战性的工作。我们建立了一个随机森林分类模型,来预测酵母基因组中的重组冷热点。为了把模型应用于全基因组,我们提出了一个独立于开放阅读框的特征:带间隔的二联碱基丰度。我们用相同的序列特征又建立了一个支持向量机模型来和随机森林模型进行比较,发现利用随机森林构造的模型在预测的特异性和敏感性上均优于利用支持向量机构造的模型。然后我们又开发了重组冷热点在线预测系统:RF-DYMHC(http://www.bioinf.seu.edu.cn/Recombination/)。用户提交酵母的DNA序列和运算参数(预测可靠性指数阈值和非重叠扫描窗口的大小),在线系统将反馈给用户预测到的重组冷热点,并将它们用不同颜色标记出来。 (2) 我们开发了全基因组DNA重组率数据库:ReDB(Recombination rate database),ReDB目前存储了六个物种的全基因组重组率数据:人(Human),大鼠(rat),小鼠(mouse),果蝇(D.melanogaster),线虫(C.elegans)和酵母(yeast)。ReDB的网址是:http://www.bioinf.seu.edu.cn/Redatabase/。用户可以通过不同的方式查询数据库,例如可以通过染色体坐标,DNA片断的重组率的相对重组率(the recombination rates)或在全基因组上的重组率排名(the ranking of the recombination rates)等等。数据库存储了每条序列的不同细节信息,例如序列所在的染色体坐标,与这条序列重组率相应参考文献的超链接,以FASTA格式的这条序列的序列信息等等。用户查询到的序列可以以批量下载的方式进行下载,这样方便了用户的存储和对序列其它方面的操作。 (3) 我们建立了一个随机森林回归模型(Random Forest Regression,RFR),来定量的预测siRNA的降解效率,并用相同的特征建立了支持向量回归机模型(Support Vector Regression,SVR)与之相比较,发现随机森林回归模型(RFR)在定量预测的能力上优于支持向量回归机(SVR)。和现有的打分矩阵方法进行比较,发现我们的随机森林回归模型在筛选高效率的siRNAs上优于这些打分矩阵算法。和其它的机器学习预测模型进行比较,发现我们的方法优于这些方法。为了方便分子生物学家设计siRNAs,我们开发了计算机辅助siRNAs在线设计系统:RFRCDB-siRNA。它的网址是: http://www.bioinf.seu.edu.cn/siRNA/index.htm。RFRCDB-siRNA与其它在线计算系统最大的差别在于RFRCDB-siRNA同时结合了siRNAs数据库搜索和siRNA降解效率预测这两个步骤。 (4) 我们结合了局域相邻三联结构组成(local contiguous triplet structure composition)特征,最小自由能特征和随机化检验特征(randomization test),建立了随机森林分类模型来对具有茎环发夹结构的序列进行分类,从而区分哪些是真正的 miRNA前体(real pre-miRNAs),哪些是假的miRNA前体(pseudo pre-miRNAs)。结果表明我们的方法在预测性能上显著的超过了Triplet-SVM-classifier。为了进一步研究到底是随机森林算法的本身优于支持向量机还是我们的特征优于 Triplet-SVM-classifier,我们用我们建立随机森林相同的特征又建立了支持向量机模型,结果表明所建的这个分类器模型在性能上比我们的随机森林模型性能要差,但分类效果又要比Triplet-SVM-classifier好,这说明我们的随机森林算法和特征均对性能的提高有着贡献。我们又开发了miRNAs前体预测系统:MiPred(http://www.bioinf.seu.edu.cn/miRNA/)。用户提交一条RNA序列,MiPred首先判断它是不是茎环发夹结构,如果是茎环发夹结构它将继续判断这条序列是不是miRNAs前体。
其他文献
随着钢铁行业的发展,高炉的大型化对焦炭的质和量要求越来越高,而优质炼焦用煤资源也逐渐出现紧缺情况。所以研究保证焦炭质量的前提下,在炼焦过程中配入一定量的非炼焦煤,对降低
国内公路建设虽然已经取得了较大的进步,但是也暴露出很多问题,较为突出的是项目建设监理工作方面的问题.本文阐述了精细化管理概念以及运用精细化管理模式的必要性,对该模式
钛是一种战略资源,含钛材料在国防和国民经济的各个部门都有广泛应用。其中,金属钛及其合金在航空、航天和航海等方面有着重要用途;钛白粉主要应用在化工、纺织和医疗等领域。储
尽管大中口径血管移植临床上已经取得了巨大成功,但小口径(<5-6mm)血管移植的临床问题仍未得到解决,并且在心脏和外周循环的搭桥手术中处于大量需求状态。建立在低剪切力理论
土木工程施工技术是工程项目实施的基础,积极创新和改进土木工程技术,对全面提高工程质量水平、降低成本、促进环境质量的改善具有重要意义.在未来的社会发展中,如果企业的土
伴随着市政给排水工程质量管理法规的颁布实施,加上对市政给排水工程的主体全面化,过程完整化,监督手段科学化,市政给排水工程质量监督体制逐步建立,市政给排水工程质量水平
近年来,相控高强度聚焦超声(HIFU——High Intensity Focused Ultrasound)技术已经成为治疗超声和肿瘤热疗的研究热点。相控HIFU技术利用了超声波特有的深穿透能力、强方向性
目的:  近年来,石墨烯由于其独特的电子结构特征和物理化学性质,在电化学检测和电分析等方面具有独特的优势,然而单一组分的石墨烯由于石墨烯本身的团聚、层间堆叠和在溶剂中
在建筑行业的发展中,落后老旧的传统住宅已经逐渐被新型的建筑群所取而代之,新型建筑群在进行施工与建设之前,需要建筑企业提供设计模型,同时通过计算机技术的技术理论分析实
城市道路的施工往往涉及到的因素比普通公路的施工多很多,涉及到的领域也十分宽广.由于城市道路使用的频繁性以及安全性,它需要做到对多种路况的具体分析,在水电管道的铺设方