基于DNA序列的转录因子结合位点预测

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zxtx001209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
了解DNA-蛋白质结合的特异性对于理解基因表达、调控机制和基因治疗有着重要的意义,而转录因子是一种常见的DNA结合蛋白。转录因子通过与DNA结合调控位于其下游基因的表达,增强或者抑制下游基因的活性,对蛋白质的翻译也起着至关重要的调控作用。因此,从DNA序列中精准地识别出转录因子结合位点是一项重要的任务。基于分子生物学实验来识别转录因子结合位点的方法存在耗时长、成本高等缺点。近年来,随着高通量测序技术的出现、计算机性能的提升与算法的发展,为构建转录因子结合位点预测模型从海量生物数据中挖掘出有价值的知识提供了可能。然而,现有基于机器学习、深度学习的转录因子结合位点预测模型的预测精度还有待提高。因此,进一步提高转录因子结合位点预测模型的性能十分有必要。本文对基于DNA序列的转录因子结合位点预测问题进行了深入研究,主要工作如下:(1)本文将自注意力机制与残差网络相结合,提出了名为SARes Net的转录因子结合位点预测模型。自注意力机制能很好地捕捉序列的远程依赖关系,将空间信息集成到网络中,同时与卷积得到的局部信息相互补充,使网络能够有效地学习空间位置信息和局部信息。同时,SARes Net采用了迁移学习,提高了网络的泛化性能,加快了模型微调阶段的收敛速度。实验结果表明SARes Net模型在转录因子结合位点预测的基准数据集上表现良好,与目前最先进的方法相比有进一步地提升,且具备良好的预测性能与泛化能力。(2)本文考虑到LSTM网络具有处理序列数据的强大特性,并且能够处理长期依赖的问题,基于LSTM网络提出了名为LSTM-Net的结合位点预测模型。实验结果表明LSTM-Net具备较好的预测性能。(3)考虑到SARes Net与LSTM-Net都具备相近的预测性能,本文还提出了名为SARes Net-LSTM的自注意力残差网络与LSTM网络相结合的转录因子结合位点预测模型。并通过在不同规模的数据集、不同细胞系的数据集上对比了LSTM-Net、SARes Net和SARes Net-LSTM的预测性能,还与其他现有预测模型在基准数据集上进一步对比,表明了本文提出的三种模型预测的准确性与稳定性。(4)为了方便生物医学研究者的使用,我们基于Spring Cloud微服务框架开发了一个预测平台用于提供在线的结合位点预测服务。
其他文献
同步定位与建图(Simultaneous Localization and Mapping,SLAM)是机器人自主执行任务的基本前提。视觉SLAM具有丰富的图像表示,但无法鲁棒地应用于特征稀疏的场景;惯性测量单元(Inertial Measurement Unit,IMU)虽然能提供可靠的横滚角和俯仰角测量值,但长时间累计漂移误差大,不能单独用于长期运动状态估计。由于视觉传感器和IMU两者具有良好
中文生物医学文本的命名实体识别和规范化在信息抽取的下游任务和构建中文医学知识图谱等方面发挥着重要的作用。随着医学文献数量迅速累积和电子病历的广泛使用,从海量的医学数据中挖掘有用的信息并进一步分析就需要依托于实体识别和规范化技术。然而,往往中文文本的结构比英文文本结构更复杂,分词的方案较英文更为复杂,并且因词语错分而导致语义误差的传递问题难以得到解决,非医学类的信息抽取技术效果也比医学类的效果更好,
由于细粒度图像其不同类别之间的差异较小,需要大量精细的人工标注数据用于训练,但是这类数据的标注任务耗时且需要相关专业人员进行。为了解决这个问题,本文将互联网上获取的图像作为训练集用于细粒度图像分类。由于网络数据集中含有大量标签噪声,如果直接用于神经网络训练,反而导致较差的分类效果。因此本文通过去除噪声图像或修正图像的噪声标签,让深度神经网络在网络数据集上进行鲁棒地学习,主要开展的研究工作如下:1.
目标跟踪是计算机视觉领域一个基础性课题,在智能驾驶、安防监控、军事侦察等领域均有着广泛应用。在目标跟踪任务中,影响跟踪性能的主要因素有:目标剧烈形变、目标快速运动、相机抖动、场景遮挡等。本文将对目标跟踪课题开展研究,主要工作可分为算法理论研究和机载系统应用两个部分:在算法理论研究部分,提出基于在线自监督学习的场景适应目标跟踪算法OSATracker。本文对当前主流的基于孪生网络结构的跟踪算法进行深
红外与可见光的图像融合是融合领域的重要研究内容,其在军事,医学,目标识别中的具有广泛的应用。如何更好的使红外图像中的目标得到增强,可见光图像中的细节得到保留以及适应人眼感知成为融合研究的主要方向。因此本文基于以上问题提出一种基于差分梯度的新算法并实现了嵌入式平台的开发。首先,阐述了本文研究课题背景及意义,国内外融合算法,硬件平台的研究现状以及本文所作的工作。之后介绍了嵌入式融合系统的组成,包括前端
经过几十年的发展,短波红外成像凭借其作用距离远、可被动成像、全天候工作等特点,被广泛应用于军事领域。但是红外成像不可避免会受到很多影响,例如大气热辐射、空中云层起伏和地面强红外辐射等干扰,严重影响传统目标检测算法在红外成像系统中的检测效果。因此如何在短波红外成像系统中设计精准的目标检测功能有重要研究意义。因此本文围绕红外成像系统中的目标检测技术,对红外成像系统组成和空间红外目标检测算法实现进行了深
多机器人协作系统是一个具有多个机器人和多个共享资源的复杂离散事件动态系统,而多机器人任务调度则旨在调度机器人利用系统中可用资源来完成给定的若干任务,调度的目标是使得所有任务能在最短时间内完成,以最大化系统资源的利用率,尽量减少系统可用资源的空闲等待时间。多机器人最优任务调度在现实中许多领域都具有十分重要的意义。例如在柔性制造系统中,最优的任务调度不仅意味着单位时间内能产出更多的产品以应对千变万化的
随着现代无线通信技术的飞速发展,通信系统对天线的性能提出了更高的要求。传统天线性能固定单一,无法满足多样化的应用需求,因此天线的可重构特性越来越受到研究人员的关注和重视。漏波天线是一种常见的波束扫描天线,结构简单且研究理论成熟,波束指向随频率变化而改变。但是大部分通信系统工作在特定的频带范围内,漏波天线的频率扫描特性并不适用。将可重构技术与频率扫描漏波天线相结合,从而实现固定频率下天线的可重构波束
激光光斑中心检测是光学测量领域的关键技术,常用于光学系统的光轴一致性检测、激光器的光轴稳定性检测、激光测距等系统中,因此激光光斑中心检测技术的相关研究具有重要的应用价值。针对当前激光光斑中心检测系统存在体积大、成本高、实时性差以及功能单一的问题,本文基于Zynq平台的ARM+FPGA的架构,既发挥FPGA在实时图像处理领域的优势,同时结合ARM的系统管理和控制能力,在Zynq平台展开了激光光斑中心
超材料作为近十几年来新兴起的一种人工合成材料,与自然传统材料相比有着特殊的电磁性质。手性超材料是一类几何单元结构经过平移或旋转不能与其镜像相重合的超材料,基于此特殊结构性质,手性超材料因此具有负折射率、旋光性、非对称传输性等特殊性质,在光学和电磁领域均有广泛应用。本文从平面手性材料结构的设计入手,在传统二维平面手性结构设计的基础上,重点研究了基于多层堆叠和金属过孔互联两种手性材料的设计方法及其手征