基因表达预测深度学习平台构建与研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:aierlansi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习和深度学习的发展,越来越多的算法开始被应用到生物信息领域,近些年由于微阵列技术的蓬勃发展,人体基因信息逐渐被挖掘出来。经过调查研究,人体内已经有两万多条基因被发现,虽然现在的基因技术在不断的发展,但是进行一次人体的全基因组成本还是非常昂贵的。经过美国国立卫生院研究表明,人体内的基因表达通常都是高度相关的,由此他们发现人体内的大约1000个标志性基因包含了人体内其余80%基因的信息。为了有效利用这些标志性基因,可以把这大约1000个标志性基因作为输入,利用机器学习或深度学习的算法进行建模,去预测剩余的基因表达数据。然而目前很少有用于基因表达预测的平台,使用机器学习深度学习算法对基因表达预测进行建模并建立可供相关研究者和学习者使用的基因预测表达平台,是本文要解决的主要问题。机器学习中的回归算法主要有线性回归、核岭回归、支持向量回归等,深度学习主要采用神经网络去做回归。LINCS项目组的成员采用线性回归进行基因表达预测。Yifei Chen等人也使用深度学习算法。但是其深度学习算法模型受限于当时的机器设备配置,建立了两个神经网络进行基因表达预测,尽管准确度上表现不错,但是在训练和预测需要耗费大量的时间。在本研究中,主要使用深度学习模型,并辅之以机器学习模型,如线性回归、核岭回归和支持向量回归,并搭建基因表达预测平台,用户只需要输入少部分的基因表达值,即标志性基因的表达值,然后平台使用后台已经训练好的模型对基因表达进行预测,并将输出的9520个基因表达值反馈给用户。在对基因数据集进行预处理后,使用scikit-learn学习包建立线性回归、核岭回归和支持向量回归模型,使用多层全连接神经网络,并采用Drop Out等技巧进行参数调优,建立深度学习模型,对模型参数进行调优后把模型保存到本地,以供平台加载使用。本文对平台所使用的模型原理、建模过程和使用进行详细阐述,并针对用户不同的输入进行分析,如本地化Blast序列比对。最后采用Django框架对基因表达预测平台进行搭建开发,并将相关数据持久化保存到My Sql数据库中。本研究旨在更好的帮助相关研究者和学习者进行使用,从而对基因表达研究起到辅助作用。
其他文献
定量分析全国范围内Cd、Pb、Zn、As、Cu和Cr 6种土壤重金属累积量与影响因素的相关程度。通过描述性统计、地累积指数法分析了污染情况和累积量分布情况,并借助地理探测器,定
在商业社会,人们按照既定的规则生活,逐渐丧失了自我选择的能力。斯坦利·库布里克(Stanley Kubrick)的影片塑造的角色总是与社会标准相背离,逐渐沦落为缺失了自主选择权的
战时任务计划的动态调整是当前作战指挥领域研究的热点问题。首先描述了分布式兵力组织的组成要素,对规划问题进行了建模,并且提出了平台定价模型。然后设计了一个分布式的协
<正>利用故事和语文的相近性,探索故事载体在语文学习中的新路径。如听故事可以训练学生的聆听能力,讲故事可以训练学生的口语表达能力,读故事可以训练的阅读理解能力,编故事
会议
目的检验江苏省个人剂量技术服务机构外照射个人剂量监测系统的性能。方法组织江苏省33家个人剂量技术服务机构开展热释光个人剂量监测系统能力考核。个人剂量计在计量部门进
本文通过研究格林的积极自由理论、权利与义务的关系理论及其国家干预理论,分析了格林的政治哲学思想在西方自由主义发展史上所处的地位及其对现代自由主义发展的重要影响。
<正>【教学现场】一、观察照片,丰富情节师:今天,王老师给大家带来了一张照片,它没有复杂的构图,没有缤纷的色彩。但当我第一次看到它的时候,却被深深地震撼了!现在,请每个同
随着我国分税制改革的不断完善,转移支付的比重在中央财政支出的比重不断扩大,项目治国的发展模式开始萌芽并有了初步的发展。这个发展模式引起了国内外学者的关注,他们开始
作为社会基本细胞的家庭正不可避免受到社会急剧变革的冲击与影响,创建学习型家庭是家庭教育适应时代需要的必然选择.该文分析了创建学习型家庭的背景,探讨了学习型家庭的内
区域化探数据包含丰富的地质信息,从区域化探数据中挖掘出这些信息,对于区域地质研究具有重要意义。笔者提出了一种利用自组织特征映射网络和K-means聚类算法挖掘区域化探数