集成学习与深度学习在膜蛋白类型预测中的研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:landy_st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,膜蛋白类型预测问题作为蛋白质组学中的重要议题成为一个新的研究热点。在膜蛋白类型预测研究中,面对不断增加的庞大的数据量,通过生物实验等传统方法进行膜蛋白类型预测已经逐渐不再适用。本文以机器学习方法为基本,从数据的特征表达入手,将膜蛋白序列转化为能够输入到机器学习算法中的特征向量,并使用多种预测模型与集成方法以此获得更好的预测性能。本文主要内容包括特征的提取与高效利用、集成策略的选择、深度学习模型的构建、特征融合等,取得了比现有方法更好的性能。具体的研究内容列举如下:1.给定一条蛋白质序列可以获得其氨基酸组成信息和进化信息,我们基于这两种信息对蛋白质进行特征提取。特征提取方法主要有氨基酸组成(AAC)、二肽组成(Dip C)、位置特异性评分矩阵(PSSM)。其中,位置特异性评分矩阵是一种强有力的特征表达方法,但是因为其维度的特殊性,使得必须对其进行后处理才能输入到传统的机器学习算法中,毫无疑问,这样会在某种程度上造成信息的丢失。本文将深度学习模型与位置特异性评分矩阵相结合,在不破坏原始的位置特异性评分矩阵的结构的前提下取得了很好的预测性能。2.对于一条蛋白质序列而言,其包含的信息是极其复杂的,氨基酸位置、序列长度以及一些氨基酸的前后依赖都会决定膜蛋白的性状,从而决定其类别。单一的分类器与判定规则无法准确的捕捉到膜蛋白序列中丰富的内在信息,从而影响预测的准确率。集成学习能够“博采众长”,组合不同的分类器,从而为预测结果带来极大的提升与改进。而如何进行分类器的组合和分类器成员的选择至关重要,我们对多种集成策略进行了实验,包括乘法策略,最大策略,线性加权,指数加权,对数加权,以及堆叠集成(stacking)。3.膜蛋白数据集中的膜蛋白是以序列来表达的,即由20个氨基酸字母组成的序列,每条膜蛋白序列的长度从几十到上千不等,而且长度的分布并不均匀,传统的机器学习算法无法捕捉到如此长的序列中的长距离依赖与内部之间的联系,我们引入循环神经网络,将原始的位置特异性评分矩阵直接输入到我们所构建的深度学习模型之中,这种网络模型可以捕捉到长距离的依赖、理解内部氨基酸之间的联系,并且可以从很长的序列中捕获到有用的信息进行加权组合,使得只用了一种特征提取方法就让模型获得了非常好的预测能力。
其他文献
高效毛细管电泳法具有高分离性能以及消耗试剂少的优点,广泛应用于分离分析领域。本文在对毛细管电泳中常用添加剂以及与质谱联用技术进行总结的基础上,建立了3个同时分析药物活性成分的毛细管电泳新方法,具有一定的实用价值,为相关药物及其制剂的质量控制提供了新的选择。论文的主要研究内容如下:1.以含有24%(v/v)甲醇、8 mmol/L SDS和1.6%(v/v)异丙醇的Na2B4O7(20 mmol/L)
目前的肝脏手术中,医生面临着术中肝脏内部组织不可见的问题。在传统的开放式肝脏手术中医生以术前CT和术中超声对肝脏中的肿瘤等病灶进行粗略的定位。而术前CT和术中超声均为二维信息,且术前CT与术中手术存在信息不匹配的问题,术中超声成像质量差难以对病灶进行精确定位。因此,使用增强现实技术辅助医生进行肝脏手术具有重要的现实意义。本文主要针对在增强现实辅助下进行肝脏切割的关键技术进行研究,旨在肝脏手术过程中
由于缺乏新颖的纳米封装包覆方法和相关的机理,通过无表面活性剂方法获得封装率高达90 wt%的形状稳定的纳米封装包覆核壳相变材料(NC-PCM)仍然是一个巨大的挑战。本文中,我们报道了一种新型的无表面活性剂的超分子锁定壳层技术,制备形状稳定的NC-PCM,其封装包覆范围为70-90 wt%。为此,首先合成了粒径约为15 nm的双亲大分子纳米反应器,然后在超声波作用下将作为储热核芯层材料的正十二烷醇自
乳腺癌的早期诊断是提高乳腺癌治愈率的关键。生物学研究表明:手掌特征与乳腺癌的发病率有相关性,若能从手掌上提取乳腺癌的易感特征,将为乳腺癌的易感检测提供一种无创、简易的方法,及时判断乳腺癌的易感性,从而提升乳腺癌患者的生存率。现有手掌特征与乳腺癌相关性研究多是手动特征提取,存在费时费力、主观性强等缺点。本文研究了手掌特征自动提取及其与乳腺癌的相关性,开发了相关平台实现:提取手掌的a-b嵴线数(指纹中
miRNAs在很多生理和病理过程中发挥重要功能,miR-155作为miRNAs中的一种,作用重大,在肿瘤中,是最常见的上调miRNA之一。而且,作为一个与肿瘤相关的miRNA,miR-155已被报道存在于多种人类癌症中。miR-155由位于染色体上的B细胞整合簇基因产生,关于它的研究有很多,它被看作是典型的多功能miRNA,可以调控多种肝脏疾病,比如肝损伤、脂肪变性和肝纤维化等。除了这些,miR-
颈部淋巴结作为重要的免疫器官,是淋巴结疾病的好发区。因此在临床诊断上对颈部淋巴结的检查具有十分重要的意义。超声成像技术因其成像过程简单、实时、经济等优点成为了颈部淋巴结检查的首要选择方式。但因为超声成像技术中混响伪影,超声斑点噪声的所带来的缺陷,导致医学超声图像模糊不清,在人工检测疾病时存在较大的主观性。因此,有效地对颈部淋巴结超声图像进行相应的处理,通过自动分割获得感兴趣区域,并进行相关的分析,
盐酸克伦特罗(Clenbuterol Hydrochloride,CL)属于β2型肾上腺素受体激动剂,常被作为违禁添加剂添加在动物饲料中,通过食物链直接危害人体健康,因此,畜产品中CL残留的快速检测对食品安全具有重要意义。纳米抗体具有敏感性高、稳定性好、筛选周期短等优点,在食品安全检测、生物医药等领域中具有良好的发展前景。本研究旨在构建基于噬菌体展示的天然纳米抗体文库,初步筛选靶向盐酸克伦特罗的纳
有理曲面的隐式化问题是一个经典的代数几何问题,在计算几何、计算机辅助几何设计与辅助制造中都有重要的理论价值和广泛的应用前景。1995年出现的Sederberg与Chen的动曲面方法是一个全新的隐式有理参数曲面的方法。Cox等人在2000年解决了用动曲面方法隐式化无基点且无低次动平面的有理曲面的有效性问题,2016年,Lai与Chen在其基础上提出了用动平面生成动二次曲面的算法,大大提高了隐式化的效
钛合金具有比强度高、工作温度范围宽和腐蚀抗力优异等特点,广泛应用在飞机发动机上。如发动机压气机盘、压气机叶片和风扇叶片的首选材料。发动机钛合金零部件主要承受疲劳载荷谱,掌握其在变幅载荷作用下的疲劳行为具有重要意义。当前,恒幅载荷下钛合金的裂纹扩展特性研究较多,而对于变幅载荷下疲劳裂纹扩展特性的研究较缺乏,针对TC4-DT钛合金在恒幅过程中加入单个拉伸超载条件下的裂纹扩展特性开展了研究。本文进行了恒
心血管疾病具有极高的发病率与致死率,药物治疗及外科手术均不能有效地解决问题,同时自体移植与异体移植受到来源与免疫原性的限制。所以,组织工程与再生医学被视为最有希望解决心血管疾病的方法。血管组织工程支架在心血管治疗方面展现出了较多优势,大直径(内径>6mm)血管的体外培养与移植已获得了较好的临床评价,但是小直径(内径<6mm)血管组织工程支架仍然存在着很多问题,例如力学性能与可降解性能不佳、长期通畅