融合计算智能的蛋白质结构预测研究

来源 :重庆大学 | 被引量 : 4次 | 上传用户:lin0929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后基因组时代生命科学中最重大的研究课题之一是蛋白质组研究,对蛋白质空间结构预测研究在整个蛋白质组计划中占有着极其重要的地位。蛋白质预测结构研究内容包括:序列预处理、二级结构预测、超二级结构预测、关联图预测、三级结构预测等。本文对其中的序列预处理、二级结构预测及关联图预测进行了深入研究。   蛋白质序列由DNA序列翻译而来,DNA序列的质量高低决定了蛋白质结构预测的准确性。现有的DNA序列预处理工具对垃圾碱基信息的过滤和清除效率不高,且随着DNA序列长度的增加出错概率会显著升高。因此,本文对DNA序列的预处理进行了研究。   BP神经网络广泛应用在蛋白质二级结构预测中,但是BP算法有其明显的缺陷,如训练速度慢、容易陷入局部极值等,这对蛋白质二级结构预测精度有重要影响,因此有必要对应用于蛋白质结构预测的神经网络算法进行改进;目前二级结构预测研究在特征表达上有缺陷,仅仅考虑氨基酸基本组成成份,特征信息表达不完整,忽略氨基酸疏水性特征以及氨基酸之问的长程作用,因此,研究基于更完善特征表达的蛋白质二级结构分类方法是有必要的。   蛋白质的三维空间结构与其功能紧密相关,目前,从蛋白质二级结构直接预测三维空间结构非常困难,蛋白质关联图预测是蛋白质三级结构和二级结构之间的重要桥梁,因此蛋白质关联图预测有着重要的研究意义。   论文取得的主要成果与创新工作概括如下:   ①提出一种新的融合智能检测的DNA序列预处理方法,它不需要预先给出载体序列、剪接位点和克隆适配片段等信息,通过统计分析、随机搜索和图操作等方法自动发现并定位垃圾信息。此新方法可以作为组件工具供DNA序列数据处理管道系统调用。   ②提出一种用于蛋白质二级结构预测的改进型动态隧道神经网络算法。神经网络具有容易陷入局部极小的缺点,动态隧道神经网络通过“钻隧道”方式,让目标函数跳出局部最小,找到更小的可行域,从而避免神经网络陷入局部极小。传统的动态隧道技术隧道方向单一并且随意,因此具有不稳定性。为了有效提高动态隧道的搜索效率,提出了一种改进型动态隧道神经网络算法。该算法增加搜索的隧道数,引入夹角弹性系数控制隧道方向,考察隧道之间的相互影响。在蛋白质二级结构预测实验中,改进型动态隧道神经网络算法预测的效果优于神经网络算法和传统的动态隧道神经网络算法。   ③针对氨基酸疏水性特征以及氨基酸之间的长程作用在蛋白质二级结构预测中的影响进行了比较试验分析。目前采用机器学习进行蛋白质二级结构预测的方法,忽略氨基酸疏水性特征以及氨基酸之间的长程作用,因此准确率不高。用氨基酸对应的疏水能值替换蛋白质中相应的氨基酸,可以得到一个疏水能值的序列。实验中发现,用长的疏水能值序列,训练BP网络,对长程作用起主导的E结构(β-折叠)的预测效果好。   ④基于比较完善的蛋白质特征表达提出Co-training算法。比较试验分析表明,氨基酸的长程作用在二级结构预测中对E结构(β-折叠)有重要的作用。因此,提出基于Profile编码特征和疏水能值特征两个独立冗余视图的Co-training算法。该算法的主要步骤为:在Profile特征空间训练SVM分类器,在疏水性特征空间训练BP神经网络分类器,协同对氨基酸二级结构进行预测;对SVM分类器和BP分类器有分歧的样本,基于主动选择思想,给予两个分类器不同的优先级进行仲裁。实验表明,Co-training方法有较高的准确性,对长程作用起主导的E结构(β-折叠),短程作用起主导的H结构(α-螺旋)预测准确率都有提高。   ⑤首次将马尔科夫逻辑网应用到蛋白质关联图预测研究中。Markov逻辑网是将Markov网与一阶逻辑相结合的一种全新的统计关系学习模型,该方法可以计算出世界的概率分布,进而为推理服务。本文利用该方法的这一优点,将蛋白质关联图预测问题形式化。具体采用了判别式训练的学习算法和MC-SAT推理算法,并详细阐述了如何用少量的谓词公式来描述蛋白质关联图预测中不同方面的本质特征,将Markov逻辑表示的各方面组合起来形成各种模型。实验结果表明基于Markov逻辑网的蛋白质关联图预测方法可以取得比基于神经网络的方法更好的效果,从而为Markov逻辑网解决实际的预测问题提供了有效途径。
其他文献
随着3D显示器和交互式多媒体系统的发展,新的3D视频应用,如三维电视(3DTV)和自由视点视频(FVV)已经越来越引起人们的兴趣。为了使这些3D视频应用成为可能,由多视点视频及其对应
RFID技术是一种非接触式自动识别和获取数据的技术,能够有效降低人工成本、提高运作效率,具有巨大的应用前景。为简化RFID系统的复杂度,通常采用RFID中间件作为连接RFID硬件设备
随着图像数据呈现几何级数的快速增长,如何实现对图像数据库更加高效、准确的检索,是众多学者研究的目标和方向。基于内容的图像检索通过提取图像的颜色、纹理、形状等底层特
互联网的飞速发展使得信息以前所未有的速度产生和传播,面对信息呈指数式增长、垃圾信息泛滥成灾的困境,搜索引擎如何找到对用户真正有用的信息遇到了很大的挑战。在传统的搜索
在现实世界中,许多领域中的数据都可以用“图”来表示。与传统的关系数据相比,图数据有着更大的灵活性。而由于数据本身的不精确、获取数据的实验手段的局限等因素的影响,不确定
随着移动通信技术的蓬勃发展、以及智能移动终端的广为普及,移动云计算正在加快商业化进程的步伐,现在已经有越来越多的用户采用移动设备来享受云服务体验。如何为用户选择“合
随着语义Web技术的不断发展,作为语义Web的核心,本体及其相关研究也得到了很大的进步。同时,作为一种清晰表达语义和知识共享的方式,本体在生物医学信息学、电子商务等方面也
在很多实际应用中,比如网络入侵、医疗诊断以及故障检测等,分类处理的对象大多是不平衡数据(集),即某些类别的样本数量明显少于其它类别的数据集,通常这些数据集中的少数类包
随着信息技术、互联网技术的迅速发展,人们可以方便的进行数字信息的交换和传输。这虽然让人们的生活和工作更加便利,工作效率提高,但是带来了数字媒体的盗版。一些人为了谋
随着无人机技术及通信能力的不断提高,无人机在军事行动、紧急搜索以及灾难救助等多种场景得到广泛应用。由多架装有传感器和武器的无人机组成的蜂群状分布式网络,这种传感器群