基于深度学习的增强子识别算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：wujun

【摘要】

：

本文针对基因非编码区功能元件的识别问题——增强子(Enhancers)识别算法展开研究。增强子是一类调控靶基因转录频率的顺式作用元件,极大影响着性状特征差异、生物进化和疾病

【作者】

：

董懂

【出处】

：

国防科技大学

【发表日期】

：

2004年期

【关键词】

：

增强子识别深度学习双向长短时记忆模型多序列比对中心星策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文针对基因非编码区功能元件的识别问题——增强子(Enhancers)识别算法展开研究。增强子是一类调控靶基因转录频率的顺式作用元件,极大影响着性状特征差异、生物进化和疾病发病等问题。增强子具有的远距离性、无方向性和细胞特异性等特点增加了识别的复杂度。目前已有的增强子识别方法或是耗时耗力的实验类方法或是依赖于复杂且效果并不理想的人工特征提取的传统机器学习算法。本文基于深度学习设计了一个可以在全基因组上大规模识别预测增强子的神经网络BiLSTM-E。根据数据挖掘的理论,训练集的序列间相似度决定了模型是否可以学习到正确且泛化的信息。多序列比对是用于度量多条序列间相似度的一种技术,而目前缺少可以快速且准确地比对大规模序列的多序列比对算法。于是本文开发出了一种面向海量数据的多序列比对算法VCSRA,为BiLSTM-E提供数据集的选择方法。全本的研究内容主要有以下三点:1.基于向量映射优化了多序列比对算法中常用的启发式策略中心星策略。新中心星策略VCS将序列映射为四维向量,在没有损失精度的情况下,能在线性时间内选择出中心序列,大幅度减少了多序列比对的整体耗时。2.在VCS的基础上,本文实现了一种多序列比对算法VCSRA,并且基于MPI/OpenMP对其进行了并行加速。实验证明VCSRA可以达到约86倍的加速比,其性能领先于主流多序列比对算法。并且VCSRA可以更加精确地比对任何长度与相似度的序列,适用范围更加广泛。3.本文重点搭建和训练出了预测增强子的深度学习模型BiLSTM-E。BiLSTM-E是一个可直接将DNA序列作为输入的神经网络。通过优化与调节模型结构和超参数,使得BiLSTM-E对增强子具有学习能力,即该神经网络在训练过程中是可收敛的。大量测试表明BiLSTM-E的性能指标均优于主流识别模型。其中,BiLSTM-E的预测准确度都不小于90.4%,AUC都在0.924以上。同时实验证明了 BiLSTM-E模型具有高泛化性。

其他文献

10个豇豆品种（系）的比较研究

通过对８个新选豇豆品系和两个对照品种的熟性、农艺性状、产量形成特点、产量和品质的比较，得出了２－２０－３和４－１０－１为优良豇豆新１－１３－１为优良中熟新品系的结论。

期刊

豇豆品种熟性农艺性状产量

香港国际金融中心的现状与前景

文章探讨了香港成为国际金融中心的原因，对香港回归祖国后能继续维持和巩固其国际金融中心的地位进行研究。

期刊

香港国际金融中心一国两制金融中心

基于ANSYS的混凝土泵车臂架特征值屈曲分析

混凝土泵车臂架是由薄板组成的箱型结构,它是泵车的主要受力构件,薄板的稳定性对臂架的性能有很大的影响.以某一个泵车的臂架结构为例,利用ANSYS软件建立臂架结构的有限元模

会议