蛋白质的几种序列信息提取方法及亚细胞定位预测研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:yeluanwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质亚细胞定位的研究与阐述各种细胞过程的功能密切相关,对一些疾病机制和发展新型药物也有着重要的作用。传统的生物化学实验方法周期长、成本高,因此基于机器学习的蛋白质亚细胞定位预测成为了当前生物信息学的重要研究内容之一。目前,蛋白质亚细胞定位预测研究的关键部分是特征信息提取和分类算法模型构建,本文主要在特征信息提取上对蛋白质亚细胞定位预测展开研究,主要内容如下:(1)基于氨基酸指数的蛋白质序列信息提取及亚细胞定位预测。氨基酸的各种物理化学性质直接影响了蛋白质的功能与结构,利用氨基酸指数将蛋白序列转化成数值序列,提出了AAF算法在新的数值序列上提取特征信息,得到一个m+2维的特征向量,讨论参数m对实验结果的影响。相比于传统的ACF算法,AAF算法的预测准确率整体提高了10%左右。(2)基于Gapped k-mer的蛋白质序列信息提取及亚细胞定位预测。氨基酸组分信息是一种最简单的信息提取算法,但推广到多肽,却存在特征向量维数过大和预测效果不理想的问题。本文提出的基于Gapped k-mer的特征信息提取算法,利用氨基酸约化和在多肽中插入空格,不仅降低了维数,而且准确率也有所提高。将Gapped k-mer提取的信息与GO信息融合后,在Gneg1456数据集上的预测准确率达到了93.28%,相比已知最好的结果提高了2.48%。(3)基于位置特异性得分矩阵(PSSM)的蛋白质序列信息提取及亚细胞定位预测。利用PSI-BLAST比对蛋白质数据库得到的PSSM矩阵代表着蛋白质的进化和保守信息,为了提取其中的特征信息,本文提出了两种PSSM矩阵的转化处理,一种基于平均进化信息,一种基于位置相关性。在NNPSL数据集上的实验表明,两种处理在蛋白质亚细胞定位预测中都提高了准确率。
其他文献
2015年前后,发达国家将进入休闲时代,发展中国家将紧随其后.根据美国休闲研究的权威人士杰弗瑞.戈比的预测,在未来的经济结构中休闲业从业人员将占80%-85%,休闲将成为人类生
房屋的渗漏水问题不仅影响房屋的外观质量、适用性和耐久性,而且会严重的影响着结构的安全性,给使用者的生活带来极大不便。结合中信地产南昌公司营销中心工程,归纳了房屋建
现有会计史研究成果列示了中国原始会计思想发展所经历的诸多形式,但缺乏对其发展逻辑的提示,或者提示得非常不够,为弥补现有研究的这种不足,现从逻辑角度展开对中国原始会计思想
计算机网络在经济生产、社会生活等领域发挥着极其重要的作用。但近年来计算机漏洞的数量呈海量增长状态,使得网络安全面临越来越严峻的挑战。实现对网络风险的量化评估以更加有效维护网络安全,具有重要意义。因此,本文进行了基于漏洞的动态网络安全风险评估方法的研究,主要工作如下。首先,针对网络风险难以全面评估问题,利用状态攻击图构建评估模型。其通过关联漏洞生成网络中所有攻击路径,有助于对风险进行全面评估。因此本
自2012"慕课"元年始,全球教育领域呈现出引进"慕课"的井喷态势。慕课背景下的高校教师创新线下教学方式的重要性和难度也相应提升。线下教师需在慕课学习前期、中期和后期处理好
聚亚烷基二醇(聚醚,PAG)是一种性能优良的合成润滑剂,它是由环氧乙烷(EO)、环氧丙烷(PO)、环氧丁烷(BO)或四氢呋喃(THF)聚合得到的线性聚合物。聚合单体的不同表现出不同的黏度、黏度指
为夯实我国化工行业的安全生产意识,创新实践型人才培养已成为地方独立本科院校转型发展过程中的主要人才培养方式。具备扎实专业知识功底及独立操作专业实验能力是创新实践
成本费用管理是联系企业生产系统与高层管理部门的纽带。成本费用管理部门通过对各个生产部门上报的基本资料进行汇总和核算,并对其进行分析,进而将分析结果及意见会同一些资料
在航天、军事、气象、医学、多媒体等领域中经常需要大量存储和传输各种静态图像和视频图像。为了提高传输效率和减少存储空间,必须采取有效的压缩编码算法消除图像中所包含
现代信息技术与制造技术巧妙地促成了创客与教育的结合,创客教育有其独特的优势在全球如火如荼地展开研究,创客教育在高校已进行了研究与实践。但高职学生是一类特殊的群体,