特定功能肽识别的集成学习方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:iversonKKE3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
功能肽识别问题是计算生物领域一个重要的研究方向,目的是确定一段给定的蛋白序列是否是某种肽。该研究能够帮助我们了解蛋白质的功能,在药物设计等多个不同领域都有重大作用。随着近些年蛋白质序列的指数增长,传统的实验验证的方式很难满足现在的识别需求,并且随着计算机计算能力不断提升,采用与机器学习结合的基于计算的预测方法,设计出能方便、快捷、准确的分类器模型,大大的提升了功能肽识别预测的效率。在本文的研究工作中,我们研究抗炎肽和抗菌肽的预测识别。但是我们采用的方法不同于以前的所有工作,我们构建了新的数据集、采用集成学习方法和自适应综合过采样算法解决数据不平衡问题。本文的主要的研究贡献如下:(1)提取了一个新的数据集。我们将抗菌肽数据库中不同功能类别数量最多的前七类作为原始数据集。同时,为了减少冗余和同源性问题,我们使用CDHIT去除同一类别中序列相似度大于40%的序列。将最终得到的710条序列作为正样本。从Uni Prot中提取相同数量的序列作为负样本。(2)提出集成学习的识别模型。不同于多个分类器进行投票的形式决定最终分类结果的方式,我们建立集成分类器链模型。分类器链模型中包含若干个二分类器,每个分类器的特征空间通过前面所有分类器的0、1标签进行扩展,从而形成了分类器链。在分类器间传递标签信息,能够考虑标签与特征间的相关性。集成分类器链通过拼接多条分类器链的结果消除分类器链的顺序问题。(3)使用自适应综合过采样算法生成新样本。抗菌肽不同功能类别的数量差异较大,需要对数据集进行过采样。自适应综合过采样与SMOTE算法主要的区别是使用密度分布作为准则来自动确定每个少数类别数据样例的合成数量。而SMOTE算法对每个少数类别合成相同数量的样本。同时采样后的数据集提供了数据分布的平衡表示,并迫使算法专注于难以学习的样本上。理论上,自适应综合过采样算法合成的样本比SMOTE算法合成的样本近似原始序列。本文研究成果可以说明,从生物信息领域我们需要考虑蛋白质各方面的属性,从不同角度多个方面提取蛋白质的特征。其次,在集成学习上,传统的分类器链决策方式都是投票或者基分类器加权平均,我们采用的将多条分类器链识别结果看作特征用来训练最终分类器的思想也值得借鉴参考。
其他文献
随着计算机图形学和虚拟现实的不断发展,听觉渲染技术逐渐引起人们的重视。目前对于火焰和水的声音合成研究都有了很大的进展,而有关气体的声音合成研究还比较少。本文针对此问题中的常见场景——旋转叶片声,包括考虑可变形固体叶片材质声音的旋转叶片声进行了研究。首先,本文针对旋转叶片声提出了一种基于物理引导的合成方法。本文关注于在现实世界和计算机游戏中都很常见的旋转叶片(例如风扇、直升机和风力机)的声音合成。首
学位
局部放电现象通常是高压电力线路及设备发生严重故障前会出现的一种现象。在现实的高压电力设备及线路的检测过程中,通常使用的是传统的物理方法,比如根据其物理特征进行判断。但是,并不是所有环境都方便进行人工检测。其次,还需要检测人员具有较为丰富的经验,以应对不同线材及设备的检测。因此,一种高效、准确且通用的局部放电现象检测方法对于提升电力网络系统的长期稳定运行能力具有重要意义。本文针对这一问题提出了三种方
学位
<正>思辨读写指的是将搜集资料、辨析问题、质疑探究、反思评估等结合在一起展开的读写活动。传统的读写结合活动常常只是关注让学生把握住文本的语言特点和表现手法,并在此基础上仿写,但是思辨读写则不一样,它强调的是学生在阅读过程中思考、辨析的过程,能很好地提升大家的思维水平。在小学语文教学中,教师也可以将整本书阅读和写作结合在一起,
期刊
<正>陈敏仪,女,汉族,1990年10月出生,中共党员,广东省东莞市残疾人体育训练中心运动员。她练习射箭10年,在2021年东京残奥会射箭项目女子W1级复合弓个人赛中,以142:131战胜捷克选手,获得冠军,并打破残奥会纪录,同时还在复合弓W1级混合团体赛中夺得金牌。
期刊
[目的]分析腰椎椎间融合术神经损伤的独立危险因素,为预防术后神经并发症提供参考。[方法]回顾性分析2015年9月—2020年6月本院采用后路腰椎椎体间融合术(posterior lumbar interbody fusion, PLIF)或经椎间孔入路腰椎椎体间融合术(transforaminal lumbar interbody fusion, TLIF)治疗腰椎退行性疾病(lumbar deg
期刊
图表征学习是处理图数据的重要手段,近年来将卷积神经网络(Convolutional Neural Networks,CNN)运到图表征学习中提出的图卷积神经网络(Graph Convolutional Network,GCN)及其变体在对图数据的处理分析中取得了巨大成功。然而,三个根本性的缺陷限制了他们对图数据的表征能力,分别是过平滑现象、无法捕捉长程依赖和未标注数据利用率低。为了解决GCNs(G
学位
网络嵌入旨在学习网络中节点的低维表征,以支持后续的网络分析任务,例如节点分类、节点聚类、链接预测和可视化。最近已经提出了一些优秀的网络嵌入方法,其中最为突出的是基于生成对抗网络的嵌入方法。现有的基于生成对抗网络的方法都是对表征结果进行对抗训练,也就是迫使表征符合某一特定分布,一般采用高斯分布。然而,这种策略很难将表征与高斯噪声区分开,因为其要求表征服从高斯分布,这大致等于给表征添加了一个高斯正则项
学位
深度估计是经典的计算机视觉任务之一,它可以为对象和环境提供丰富的表示信息。近年来,端到端深度估计方法的性能已得到显著改善。但是,卷积和池化操作的堆叠导致局部空间细节信息丢失,这些信息对基于监督学习的单目深度估计非常重要。为了克服这个问题,本文首先提出一种具有跳跃连接的编码器-解码器框架。基于自注意力机制,将通道空间注意力模块作为过渡层,捕获深度和空间位置关系,提高通道和空间的特征表示能力。然后提出
学位
人文素养是职业成功的重要保障和关键力量。对社会弱势群体而言,除了开展职业培训,人文素养的提升对其职业生涯发展有着更为重要的意义。调查显示,社会弱势群体人文素养整体水平偏低,对人文素养有迫切的提升诉求。利用目前海量的线上教育资源,构建既有较强针对性、又便于学习的社会弱势群体人文素养课程体系,组建在线学习课程包,开发“易助学”手机APP帮助其自主学习,并通过评估和诊断,以闭环反馈的形式不断提升社会弱势
期刊
在数字信息化时代的背景下,针对人员自杀或暴力行为等风险的预防,如何利用智能技术进行人员心理风险计算是当前重要的研究问题。其中,人员心理风险计算需以人员心理风险画像为指导。但是,当前已有的相关研究主要基于传统调查问卷的方式来描绘人员的心理特征,进而进行人员心理风险计算。但随着人在多元空间下数据量的迅速增加以及信息维度的不断扩增,如何利用多元数据构建人员心理风险画像并利用复杂网络进行建模是当前人员心理
学位