【摘 要】
:
蛋白质的功能和它在生物体内的位点存在着紧密关联,新翻译的蛋白质只有被运送到恰当的生物体亚细胞位点上才能发挥其作用,否则将会出现诸如癌症、与遗传相关等难以根治的疾病
论文部分内容阅读
蛋白质的功能和它在生物体内的位点存在着紧密关联,新翻译的蛋白质只有被运送到恰当的生物体亚细胞位点上才能发挥其作用,否则将会出现诸如癌症、与遗传相关等难以根治的疾病。目前生物实验方法获取定位信息仍需花费大量时间与金钱,通过计算机如何在海量蛋白质中快速准确定位已经成为生物信息学的一个学习焦点。针对目前生物数据量大、特征维数高,且蛋白质产生是随机、爆发、不连续的特点,造成数据受噪声干扰以及位点上蛋白质数量不平衡等问题,本文提出了基于噪声比LDA和类内隶属度KNN的蛋白质亚细胞定位的方法,具体工作包括以下三个方面:(一)本文立足于线性判别分析进行蛋白质数据降维,在线性判别分析方法中,它是通过Fisher线性判别率找到一个方向的直线,使各类样本在此直线上的投影能够尽可能的分开即类间最大距离,类内最小距离。然而,在mRNA翻译成蛋白质的过程中,由于噪声的存在,蛋白质类内距离变大,大大影响降维效果。因此,本文在此领域引入了噪声比例,利用噪声比例加权线性判别分析方法,使类内距离尽可能的变小,实现其较好的降维。(二)针对亚细胞位点上蛋白质数量不平衡问题,本文采用一种类内隶属度K近邻算法,首先引入类内思想,巧妙地避免某一类因为数据少而选不在前K个样本中,误判为其他类;其次,增加数据属性间的关联关系,利用隶属度表示类与数据样本间的具体距离,使其达到更好的分类效果。(三)实验环节,采用了两组数据(Gram-Negative、Gram-Positive蛋白),以及Jackknife检验方法。结果显示,本文工作对蛋白质分类正确率的提高有明显作用,比如Gram-Negative数据在降维到7维时其分类正确率基本稳定在89%。最后,基于上述研究工作本文给出了一个提供降维和分类预测功能的原型系统,以便于后期实际应用。
其他文献
橡胶气囊由于其具有成本低,使用方便,可重复利用等优点被广泛的应用于运输,建筑,船舶下水等领域,目前,橡胶气囊主要采用铺放工艺,通过手动或半自动设备实现成型加工,这种成型
在普通话的言语识别与表达中,声调起着重要作用。对于人工耳蜗植入儿童来说,声调是学习语言的关键。目前,关于人工耳蜗儿童的声调研究主要集中在安静场景下的感知或产出,但在日常生活和工作中,交际活动发生在各种复杂环境中。因此,安静环境下的研究结果难以真实全面地反映人工耳蜗植入者在日常嘈杂环境下的真实言语水平。且言语水平体现在两个方面:听和说。所以,要想全面了解人工耳蜗植入儿童对声调的掌握情况,就需要在噪声
秀丽隐杆线虫生活周期短、结构简单、通体透明,是生物学研究的重要模型之一。尤其是以土壤微生物为食的线虫在面对各种各样的食物诱惑时,需要快速辨别有害致死的病原菌、或者
近年来,随着信息科技及工程应用的急速发展,位置信息服务越来越深入人们的日常工作及生活中,发挥着越来越重要的作用。GPS定位技术起步较早且较为成熟,其作为良好的定位解决
本课题组从嗜热真菌中分离得到一系列结构新颖且活性与阿维菌素相当的抗线虫活性的PKS-NRPS杂合生源的细菌类型的十三元大环内酯类化合物,及与常温真菌中结构相互补的吲哚生
哺乳动物中转录因子EB(TFEB)作为一种重要的转录因子,对于生物体中的多种生理过程非常关键。在饥饿状态下,TFEB控制着自噬基因和溶酶体生物合成基因的转录。在营养充足的状态
传统的地理网络图可视化往往受制于二维显示屏,而将节点和边线绘制在二维屏幕地图上或者地球模型的外表面上。这样的绘制方式会导致大量的边线相互交叉以及节点和边线相互重
大夏河是黄河上游地区的一级支流,发源于青藏高原东北边缘,流经临夏盆地注入黄河,地处青藏高原和黄土高原结合部,自然环境具有典型的过渡性,生态环境脆弱。流域内多民族聚居,
随着计算机硬件和软件水平的发展,利用计算机提高人们生活水平是一个广泛存在的需求。利用机器学习和数据挖掘技术从用户日常行为信息中得到用户行为习惯,以此控制日常家用电
当代世界发展的一个典型特征是世界特别是欧洲一体化进程的加剧。欧盟与乌克兰建立友好伙伴关系的问题非常紧迫。欧盟是现代地缘政治领域的积极参与者。欧洲一体化进程的发展