基于多组学数据的基因调控网络构建方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:scz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因调控网络是生物学系统的一个强有力抽象,它对生命活动的控制是通过调控细胞内基因的表达水平来实现的。作为生物过程的核心,基因调控网络几乎控制着生物的所有细胞活动和功能,在生物的生命进程中发挥着至关重要的作用。基因之间的调控机制十分复杂,传统的湿实验很难挖掘其调控规律。构建高质量的基因调控网络是系统生物学领域一直以来都关注的热点问题。随着计算技术和人工智能理论迅猛发展,极大地促进了基因调控网络计算方法的研究。近几十年,已经有很多方法被提出并用于构建基因调控网络。挖掘基因调控规律,可以帮助了解生物的生长、分化规律,解读生物分子间复杂的调控作用关系。准确构建基因调控网络,对于揭示转录因子如何调控目标基因表达,控制自身代谢速率,适应环境变化规律具有重要意义。大数据时代下,基因组学、转录组学、蛋白质组学和代谢组学等大量的组学数据涌现,为基因调控网络的推断提供了坚实的数据基础。目前已有许多方法利用基因表达数据构建基因调控网络,但是,单一类型的生物数据可能并不能为准确高效地推断基因调控关系提供足够的信息。不同类型的生物数据能够为构建基因调控网络提供互补的信息,有效利用这些多组学数据,是构建高质量基因调控网络的关键。本文将复杂的基因调控网络构建问题转化为简单易解决的二分类问题,在此基础上基于多组学数据进行基因调控网络构建方法研究,主要工作如下:(1)针对大多数方法都是基于单一类型的生物基因表达数据和单个模型推断基因调控网络,忽略了其他多源数据在推断基因调控网络上的信息贡献和模型固有偏好性,存在生物数据利用不充分,方法精度不高且鲁棒性差的问题,本文提出了一种集成神经网络模型——Int NNs(Integrative Neural Networks)。Int NNs充分利用基因表达数据、蛋白质序列数据、启动子序列数据、CDS(Coding Sequence)数据等组学数据提取不同的数据特征,训练不同的神经网络,然后将所有基础神经网络的预测结果整合到一个集成子网络中,以利用不同数据特征和基础网络的互补信息更鲁棒的预测基因调控网络。在玉米和人类真实数据集上的实验结果表明,多源数据整合和多个基础网络的集成可以进一步提高基因调控网络构建精度。(2)针对基因调控网络具有动态特性,静态的基因表达数据无法真实反映调控网络的动态信息,且考虑到不同数据源之间存在个体差异信息,直接融合多源数据可能会覆盖掉每一个组学数据中提供的关于调控机制的一个独特的、互补的基因组观点,多数方法在多源数据使用上存在对数据整体特性和个体差异性建模不够的问题,本文提出另一种新的基于时序动态集成神经网络推断基因调控网络的方法——TDINNs(Temporal Dynamic Integrative Neural Networks)。TDINNs利用基因时间序列表达数据中的动态信息,结合蛋白质序列数据等其他组学数据共同挖掘基因调控信息,通过神经网络集成不同数据源的个体信息和多源数据的整体信息来预测基因调控网络。在真实玉米生物数据集上的实验结果显示,相较于其他对比方法,TDINNs在推断基因调控网络上性能更优。
其他文献
数字媒体技术的发展深刻改变了媒介与城市之间的关系。城市作为社会发展的动力和中心,一直为传播界所探讨的话题。随着媒介技术的发展,高流动性、即时并渗入城市空间的媒体集合,已经成为一种独特的感知城市空间的方式。20世纪70年代中期,电子屏幕首次出现在城市街道,时至今日,城市户外大屏已经成为一种屡见不鲜的城市景观。因此,本文将围绕城市大屏幕与城市空间,具体探讨城市大屏幕如何成为形塑城市的关键节点,并通过这
二十世纪以来,随着社会的发展、科学技术的进步,图像迅速充斥着我们生活的各个角落,使得我们进入了图像时代。摄影技术的进步削弱了绘画的记录功能,图像与绘画的相互融合成为这个时代发展的必然趋势。自油画传入中国,叙事作为油画创作的传统,一直占据着油画发展的重要位置。而随着时代语境的转变,这种传统的叙事形式已经慢慢的卸下了主角光环,艺术不再单纯的为政治、宗教、历史服务,转而更加丰富多元。出现了微观化、个人化
命名实体识别(Named Entity Recognition,NER)的主要任务是识别出文本中人名、地名和机构名等专有名词,作为自然语言处理(Natural Language Processing,NLP)领域的一个分支以及关键技术,已广泛应用于信息提取、情感分析、语句分析等领域中。随着互联网行业的快速发展,用户在网上的社交和娱乐会产生大量文本,为了挖掘文本内的有效信息,命名实体识别技术成为各领
学位
近年来,随着信息时代中互联网的迅速发展,软件在人类社会生活中的应用越来越普遍,移动支付、物联网、云计算、AI技术的普及,都依赖于软件为载体,我们正在步入智能软件的社会。与此同时,软件规模在急剧的扩大,软件复杂性不断提升,如何保障软件的质量,对软件测试技术提出了新的要求。其中,由于软件版本的更新更加频繁,软件工程师通过执行回归测试来确保软件系统的质量,这意味着整个软件生命周期中需要多次执行回归测试。
黄栌(Cotinus coggygria)是一种优良的水土保持与园林美化树种,开展黄栌造林技术研究具有广阔的发展前景。种子繁殖是黄栌的主要繁殖方式之一,但因其种子具有坚硬且不透水的木质种皮和休眠胚,阻碍了水分的渗透,故而自然条件下发芽能力较低。为提升黄栌种子的发芽率,培育优质黄栌苗,本文以巫山黄栌种子为实验材料,采用不同沸水处理方式(室温纯水、自然冷却、立即冷却)、98%浓硫酸(H2SO4,比重1
西南地区露地蔬菜生产氮肥用量大和养分投入不合理等问题突出,加上区域性高温多雨和土壤风化淋溶严重等因素,导致蔬菜系统氮肥损失严重和环境代价高。因此,本研究采用田间试验和生命周期评价(LCA)相结合的方法,一方面,定量化评价不同减氮配施硝化抑制剂(DMPSA)氮肥产品对西南地区大白菜和辣椒生长发育以及农学、环境和经济效应的影响。另一方面,综合评价以减氮配施DMPSA氮肥产品为核心的土壤-作物综合管理理
在社交网络不断变化过程中,从微观变化层面上观察,各种信息在个体之间相互传递和改变,从而个体之间关系会根据接收到的不同信息发生不同的变化,这种关系在演变过程中可能增强或破裂;从宏观变化层面上观察,由于网络中个体的非线性相互作用,网络会形成一定的结构和功能。因此从两个方面剖析网络是非常有必要的。目前研究者大多关注单一类型网络的剖析,或者分析某一网络的特征。对网络这些特性分析固然重要,但是网络的特性都是
分形凝聚是自然界中常见的现象,如雪花的形成,晶体薄膜的生长,土壤粒子的凝聚等。分形分散也是比较常见的现象,例如水流的冲刷,土壤团簇的破碎等。团簇的凝聚与分散属于非线性过程,在随机过程中表现为自组织现象和自相似性,这些特征引起了学者一系列的思考。如团簇凝聚和分散的过程,外界环境对凝聚与分散过程的影响等,对于这些问题,学者们从未停止过探索。在传统实验方法中,学者们利用仪器进行研究,但在很多环境下传统实
目标检测一直是计算机视觉里的重要研究方向之一,受到众多学者的密切关注,其目的是判定输入图片中是否含有目标类别,并用边界框将目标包围起来。随着视频数据的快速增长,视频目标检测研究得以快速发展。视频目标检测将视频看作连续的图片帧,在每一帧上完成目标检测任务。视频目标检测在自动驾驶、视频监控、智慧城市等应用领域发挥着不可或缺的作用。然而,视频目标检测仍面临许多问题。视频中不可避免的运动模糊、怪异姿势和视