基于深度学习的增强子识别算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:wujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对基因非编码区功能元件的识别问题——增强子(Enhancers)识别算法展开研究。增强子是一类调控靶基因转录频率的顺式作用元件,极大影响着性状特征差异、生物进化和疾病发病等问题。增强子具有的远距离性、无方向性和细胞特异性等特点增加了识别的复杂度。目前已有的增强子识别方法或是耗时耗力的实验类方法或是依赖于复杂且效果并不理想的人工特征提取的传统机器学习算法。本文基于深度学习设计了一个可以在全基因组上大规模识别预测增强子的神经网络BiLSTM-E。根据数据挖掘的理论,训练集的序列间相似度决定了模型是否可以学习到正确且泛化的信息。多序列比对是用于度量多条序列间相似度的一种技术,而目前缺少可以快速且准确地比对大规模序列的多序列比对算法。于是本文开发出了一种面向海量数据的多序列比对算法VCSRA,为BiLSTM-E提供数据集的选择方法。全本的研究内容主要有以下三点:1.基于向量映射优化了多序列比对算法中常用的启发式策略中心星策略。新中心星策略VCS将序列映射为四维向量,在没有损失精度的情况下,能在线性时间内选择出中心序列,大幅度减少了多序列比对的整体耗时。2.在VCS的基础上,本文实现了一种多序列比对算法VCSRA,并且基于MPI/OpenMP对其进行了并行加速。实验证明VCSRA可以达到约86倍的加速比,其性能领先于主流多序列比对算法。并且VCSRA可以更加精确地比对任何长度与相似度的序列,适用范围更加广泛。3.本文重点搭建和训练出了预测增强子的深度学习模型BiLSTM-E。BiLSTM-E是一个可直接将DNA序列作为输入的神经网络。通过优化与调节模型结构和超参数,使得BiLSTM-E对增强子具有学习能力,即该神经网络在训练过程中是可收敛的。大量测试表明BiLSTM-E的性能指标均优于主流识别模型。其中,BiLSTM-E的预测准确度都不小于90.4%,AUC都在0.924以上。同时实验证明了 BiLSTM-E模型具有高泛化性。
其他文献
通过对8个新选豇豆品系和两个对照品种的熟性、农艺性状、产量形成特点、产量和品质的比较,得出了2-20-3和4-10-1为优良豇豆新1-13-1为优良中熟新品系的结论。
文章探讨了香港成为国际金融中心的原因,对香港回归祖国后能继续维持和巩固其国际金融中心的地位进行研究。
混凝土泵车臂架是由薄板组成的箱型结构,它是泵车的主要受力构件,薄板的稳定性对臂架的性能有很大的影响.以某一个泵车的臂架结构为例,利用ANSYS软件建立臂架结构的有限元模
在高校教职工中应加强预防恶性肿瘤和心脑血管病卫生知识的宣传,提高教职工的自我保健意识,积极治疗乙肝,做好肝癌的二级预防也极为重要,且具有普遍意义。
2009年1—3月,对黑龙江三江自然保护区狍冬季卧息地选择进行了研究,并与1999年对该保护区狍冬季卧息地选择的研究结果进行了比较,以期了解经过10a的保护,黑龙江三江自然保护
“权责发生制”的产生与应用是会计核算中的一大进步,但从核算效果来看,并未达到最成,需要进一步完善。
三,P02××燃油和空气计量┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━┳━━━━━━━━━━━━┓┃P0256 ┃喷油泵
作者论述了我国在今后扶贫攻坚战中除了继续投入必要的物力、财力扶持贫困地区农田基本建设外,要积极引导贫困地区发展商品生产和商品交换,转变与市场经济条件不相适应的观念和
以三氯化铁与氨水反应得到水合氧化铁水溶胶,向其中添加十二烷基苯横酸钠(DBS),用二甲苯萃取,减压蒸除萃取物的二甲苯,得到超微粒氧化铁。试验了水溶胶的浓度,萃相相比和DBS用量等影响因素
本文以为在体操教学中,有效地消除学生的害怕心理对于提高体操教学质量有着至关重要的意义,提出了消除害怕心理的几种方法。