基于序列特征的蛋白质功能类预测方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:mini_fc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划(Human Genome Project, HGP)的实施,核酸、蛋白质的序列和结构数据呈指数增长,生命科学已实质性地步入到后基因组时代。序列信息不断累积的同时,大量参与重要生命活动的蛋白质功能却仍然未知。蛋白质序列数据和功能信息之间的差距,使得在全蛋白质组范围内确定蛋白质的功能成为后基因时代生物学研究的主要任务之一。随着序列信息的急剧增加,人们开始将更多的注意力放在如何从序列预测蛋白质功能的问题上。论文主要研究基于序列特征的蛋白质功能类预测,主要工作包括:在对蛋白质序列的表征方法和分类方法进行较为详细的综述之后,提出了一种氨基酸序列的全局编码(Global Encoding, GE)方法来表征蛋白质序列,并采用最近邻分类算法预测蛋白质的功能类。通过对酵母蛋白质的1818条序列进行功能分类预测,验证了这种方法的有效性。特别是当蛋白质相互作用信息有限,仅采用序列信息的情况下,它能有效地提取蛋白质序列中蕴含的功能信息,达到蛋白质功能类预测的目的。另外,还根据蛋白质的组成、物化属性、序列局部信息,以及氨基酸的位置信息提出了一种新的蛋白质序列表征方法-加权分段伪氨基酸组成位置向量(W-SPsAA-MV)。该向量的维度比氨基酸序列全局编码的维度要低,并且通过最近邻分类算法得到的预测结果也有所改进。针对蛋白质的功能类别可能有一种或多种的情况,采用协方差判别式分类器对其进行了预测评估,实验结果表明,该分类器能较好的应用于蛋白质的功能类预测。
其他文献
目的对海拉尔盆地贝西斜坡主要勘探目的层系进行层序、体系域划分及扇体的刻画。方法以层序地层学等理论为指导,以工作站LANDMARK,GEOPROBE地震岩性圈闭识别和储层预测等技术
20世纪伟大的作曲家伊弋尔·费多罗维·斯特拉文斯基一生共有五部冠之以交响曲名称的作品。本文着重研究了其中的一部作品——《C大调交响曲》,它创作于斯特拉文斯基一生中最
盛唐文学的自觉,是词体形成的深层次原因。盛唐诗坛对于诗歌中情爱题材的回避,为词体形式出现在情爱题材上提出了需要。盛唐对于初唐宫廷诗和宫廷应制方式的批判,客观上提出
利用1971-2005年西藏10个站的0.8m、1.6m和3.2m逐月平均地温资料,采用气候倾向率等现代统计诊断方法,研究了近35年西藏年、季平均地温的变化趋势、气候突变和异常年份。结果
木材染色就是在保持木材原有天然纹理的基础上,采用染料等化学药剂使木材获得颜色的方法与加工过程。衡量染色木材的一个很重要指标就是染色材的耐光性好坏(即耐光色牢度)。提高
本文立论主要建立于对《末世视野的镜像“对照”——再论<传奇>》一文的批判与再论,并由此追寻张爱玲文学生涯所呈现的文学思想对中国现代文学史的重大意义。本文认为,作为现代
家庭教育是教育的重要组成部分,无论对于个体的成长还是对于整个社会的发展,家庭教育都有着不可替代的作用。在政治、经济、文化等社会因素的影响下,不同国家的家庭教育呈现出不
本文以高校体育场馆为研究对象,以华东师范大学体育馆为案例,分析了高校体育场馆的现状和使用中存在的问题,引入平衡计分卡(the Balanced Scorecard,BSC)绩效评价和战略管理工具
在中国,城乡居民点用地有规范的人均指标,招标拍卖已成为获取经营性用地的主要方式,交通和水利设施用地主要受政府和区域重大政策影响,而工业用地既缺乏相应的用地标准,土地
生态危机是当今社会面临的一个重大理论课题和现实问题。生态文学批评应当在正视当前人类生态危机的前提下,树立家园意识与理论自觉,引领人们构建自觉的生态意识和健全的生命