论文部分内容阅读
DNA是一种生命体的遗传物质。DNA序列特异性是指DNA序列结合特异性蛋白质的能力。DNA序列特异性在基因调控过程中起着至关重要的作用。利用生化实验方法研究DNA序列特异性耗费大量的人力和物力。本文研究用深度学习技术预测DNA序列特异性。本文第一个主要工作是构建和训练了DNA词化向量模型。把DNA序列按3-mer为单位划分为词序列,利用词向量模型训练了词向量,训练后的聚类结果较好的解释了相关的生化语义。本文第二个主要工作是基于词化向量,为DNA序列特异性预测构建了一个深度学习模型。首先利用卷积神经网络捕捉DNA词序列的局部属性,然后利用双向递归神经网络捕捉DNA序列的全局特征,最后将这些自动提取的特征联合蛋白质等编码特征一起输入到多层感知器,利用多层感知器网络训练分类器。与权威方法相比,该分类器取得了非常有竞争力的结果,在测试集上的AUC的平均值提高了5%、且对同一条DNA序列识别不同结合蛋白质的能力要高于权威方法。