论文部分内容阅读
本文针对基因非编码区功能元件的识别问题——增强子(Enhancers)识别算法展开研究。增强子是一类调控靶基因转录频率的顺式作用元件,极大影响着性状特征差异、生物进化和疾病发病等问题。增强子具有的远距离性、无方向性和细胞特异性等特点增加了识别的复杂度。目前已有的增强子识别方法或是耗时耗力的实验类方法或是依赖于复杂且效果并不理想的人工特征提取的传统机器学习算法。本文基于深度学习设计了一个可以在全基因组上大规模识别预测增强子的神经网络BiLSTM-E。根据数据挖掘的理论,训练集的序列间相似度决定了模型是否可以学习到正确且泛化的信息。多序列比对是用于度量多条序列间相似度的一种技术,而目前缺少可以快速且准确地比对大规模序列的多序列比对算法。于是本文开发出了一种面向海量数据的多序列比对算法VCSRA,为BiLSTM-E提供数据集的选择方法。全本的研究内容主要有以下三点:1.基于向量映射优化了多序列比对算法中常用的启发式策略中心星策略。新中心星策略VCS将序列映射为四维向量,在没有损失精度的情况下,能在线性时间内选择出中心序列,大幅度减少了多序列比对的整体耗时。2.在VCS的基础上,本文实现了一种多序列比对算法VCSRA,并且基于MPI/OpenMP对其进行了并行加速。实验证明VCSRA可以达到约86倍的加速比,其性能领先于主流多序列比对算法。并且VCSRA可以更加精确地比对任何长度与相似度的序列,适用范围更加广泛。3.本文重点搭建和训练出了预测增强子的深度学习模型BiLSTM-E。BiLSTM-E是一个可直接将DNA序列作为输入的神经网络。通过优化与调节模型结构和超参数,使得BiLSTM-E对增强子具有学习能力,即该神经网络在训练过程中是可收敛的。大量测试表明BiLSTM-E的性能指标均优于主流识别模型。其中,BiLSTM-E的预测准确度都不小于90.4%,AUC都在0.924以上。同时实验证明了 BiLSTM-E模型具有高泛化性。