论文部分内容阅读
非编码RNA(ncRNA)是一种从DNA中转录但不编码蛋白质的功能性RNA,其研究是当前生物医学研究中最令人兴奋的领域之一。根据转录组学和生物信息学的研究,有成千上万的ncRNA根据其功能和长度被分为不同的类别,包括tRNA、rRNA、miRNA、siRNA、piRNA和lncRNA等等。piRNA是不同物种中广泛存在且数量庞大的一类小非编码RNA。相比于miRNA和lncRNA的数据量有限且已经进行广泛研究,对piRNA的研究目前仍处在基础阶段,主要集中在转录和转录后水平,而很少有在翻译后水平piRNA的功能研究。准确从非编码RNA序列中识别出piRNA是开展其后续功能研究的重要保证。当前研究大多基于人工或者工具提取出上千个特征,然后结合一些机器学习方法进行分类识别,由于特征过多导致方法重复性不强,并且只能针对有相应特征的一小类piRNA使用,整体piRNA识别准确率或可靠性有待提高。因此,本文基于卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)的组合设计了一种深度学习网络模型,命名为DeepiRNA模型。该模型有效减少了人工对特征提取的干预,提高了识别piRNA的准确率和可靠性。实验准备了人类和小鼠两个物种的piRNA数据和非piRNA数据,经过数据分析和预处理后构建训练数据集,然后对两个物种数据分别进行模型训练。训练过程使用五折交叉验证的方式,分别保存人类和小鼠的最好的模型的参数和权重。实验表明,DeepiRNA模型在用于识别piRNA序列时具有较高的准确率和泛化能力。在人类的测试数据上,准确率达到92.86%,AUC值达到0.9805;在小鼠的测试数据上,准确率达到92.22%,AUC值达到0.9751,不论是准确率还是泛化能力,DeepiRNA都有较好的表现,表明该模型在piRNA识别上具有实际应用的潜力。并且,对2020年4月发表在《Nature》杂志上的一条埃及伊蚊piRNA数据进行识别预测分析,结果表明获得较高的预测值达到0.99以上,表明DeepiRNA模型在跨物种的piRNA识别上也具有潜在的优势。进一步用不同的模型对实验进行结果对比,选择支持向量机(SVM)、随机森林(RF)、XGBoost三种机器学习算法用相同的人类和小鼠的训练数据集进行训练。结果表明,无论是在准确率、F1-Score还是AUC值上,DeepiRNA在人类和小鼠测试数据结果上均优于其他三种方法,表明分类结果具有较高的准确率和可靠性。为了能够方便相关生物研究者在线使用,根据人类和小鼠两个物种保存的最好的模型,设计并开发了搭载DeepiRNA算法的在线网站系统。用户在线选择想要预测的物种,按照数据示例提交单条序列或者一个文件(多条序列)至服务器。系统会根据用户选择的物种匹配模型,根据提交的数据调用预测模型实现实时反馈预测结果,并展示在页面上。网站地址为:Http://www.deepbiology.cn/DeepiRNA。