一组新的氨基酸描述子在多肽定量构效关系中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dd100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
定量构效关系(Quantitative Structure Activity Relationship,QSAR)是结构特征的描述符与生物活性之间的关系,可以作为化学计量方法应用于药物的设计和发现的过程中。因为用实验方法确定大量蛋白质或多肽的性质效率低下且昂贵,所以引入了诸如定量构效关系分析之类的计算方法,能够有效地解决此类问题。氨基酸描述子是氨基酸的拓扑性质,物理化学性质,三维结构或其他性质的定量值,用于定量描述氨基酸的结构和性质。多肽QSAR研究的主要方法是使用氨基酸描述子来表征多肽。近年来,已经有许多关于QSAR的研究,也有一些是基于氨基酸理化性质的AAindex数据库得到的描述子,而最近AAindex数据库有所更新,并且理化性质描述子的建模效果优于其它类型的描述子,具有意义明确和结果易解释等优点,所以为了更准确地预测结构变化和生物活性之间的关系,我们不仅收集了AAindex数据库中共计天然氨基酸的566种理化性质参数,并且综合采用近年发展起来的高斯过程回归和随机森林回归以及另外四种更常用的回归方法来建模进行定量构效关系研究。本论文的主要内容是在AAindex数据库中收集了天然氨基酸的566种物理化学性质参数,并收集了苦味二肽、血管收缩素转化酶抑制剂、血管舒缓激肽促进剂、后叶催产素和抗菌肽的多肽序列和实验观测活性值,将天然氨基酸的566种物理化学性质分为疏水性质、立体空间性质、电性质和组成性质四大类,分别并且总体地用matlab软件进行主成分分析,得到一组新的氨基酸描述子H5、S8、E7、C5和V9。用这五种氨基酸描述子分别表征五种多肽样本集,而后按照2:1的比例划分为训练集和测试集。分别用多元线性回归、偏最小二乘回归、支持向量机回归、最小二乘支持向量机回归、随机森林回归和高斯过程回归6种机器学习的方法进行定量构效关系建模,对建模方法进行比较分析;用留一法进行内部验证以及外部验证,确保模型的有效性。可以得到一组统计量结果:训练集的拟合系数R~2,均方根误差RMSEE,交叉验证的拟合系数R~2cv,交叉验证的均方根误差RMSCV,测试集的预测相关系数R~2pred,外部交叉验证系数Q~2est,预测的均方根误差RMSEP,从而综合全面地从模型的拟合能力、稳定性以及最为重要的预测能力来评测所建模型的优劣。我们发现了几组模型不论是拟合性、稳定性还是预测能力都明显优于前人描述子的搭配组合,E7-BTD-MLR、E7-BTD-PLS、E7-BTD-GP、S8-BTD-GP和V9-ACE-SVM,建模的统计量结果R~2、RMSEE、R~2cv、RMSCV、R~2pred、Q~2est、RMSEP依次为:(1)0.946、0.140、0.796、0.273、0.913、0.915、0.193;(2)0.946、0.141、0.831、0.249、0.918、0.919、0.188;(3)0.943、0.145、0.830、0.249、0.929、0.930、0.175;(4)0.925、0.166、0.736、0.311、0.902、0.903、0.206;(5)0.903、0.310、0.790、0.457、0.939、0.939、0.243。将这一组氨基酸描述子应用于苦味二肽、血管收缩素转化酶抑制剂和后叶催产素,都取得了比较好的效果。(1)C5描述子:对于苦味二肽,用MLR、PLS和GP方法建模取得了比较好的结果;对于血管收缩素转化酶抑制剂,用SVM方法建模的结果很好。(2)E7描述子:对于苦味二肽,用MLR、PLS和GP方法建模得到了非常好的结果,用SVM和LSSVM方法的建模结果也比较好;对于血管收缩素转化酶抑制剂,用RF方法的建模结果比较好。(3)H5描述子:对于苦味二肽,用MLR、PLS和GP方法的建模结果比较好;对于血管收缩素转化酶抑制剂,用PLS、GP和SVM方法的建模结果比较好;对于后叶催产素,用GP方法建模得到了非常好的效果,用PLS方法的建模结果也比较好。(4)S8描述子:对于苦味二肽,用GP方法建模取得了非常好的效果,用MLR、PLS、SVM和LSSVM建模的结果也较好;对于血管收缩素转化酶抑制剂,用MLR、GP和SVM建模的结果比较好;对于后叶催产素,用MLR、PLS和GP方法建模的结果比较好。(5)V9描述子:对于苦味二肽,用MLR、PLS、GP和SVM方法建模的结果比较好;对于血管收缩素转化酶抑制剂,用SVM方法建模取得了非常优秀的效果,用其它五种方法建模的结果也都比较好;对于后叶催产素,用MLR、PLS和GP方法建模的结果比较好。对于血管舒缓肽促进剂和抗菌肽,用六种方法建模的结果都不够理想。这五个氨基酸描述子对五组多肽样本有不同的适用性:对于苦味二肽,E7描述子的应用效果最好,总体地是用PLS和GP方法建模的效果最好;对于血管收缩素转化酶抑制剂,H5描述子的应用效果最好,用SVM方法建模的效果最好。这一组理化性质描述子用GP、PLS、MLR和SVM方法所建的定量构效关系模型普遍更为有效;不同的氨基酸描述子应用于不同的多肽样本集,所适用的建模方法有所差异。
其他文献
学位
随着“文化空间”保护在我国文物保护与利用工作中的重要性不断提高,以历史文化资源保护为核心的文化保护空间规划正逐步在国土空间规划体系中承担重要角色,并在省域层面要求以文化名城(地区)为统领,协调并整合区域文化资源,凸显地域历史文化特色。对于包括淮安、扬州、盐城、南通与泰州五市在内、总面积达数万平方公里的江苏“江淮之间”地区而言,在此基础上开展历史时期区域性文化资源格局研究、梳理区域性历史文化发展脉络
为了处理复杂的高维数据,将数据嵌入到低维空间、并维持数据的拓扑结构,这是一种常用的做法,被称为降维或者流形学习。本文借助信息几何工具,以优化流形学习为目的展开研究,完成了以下工作:(1)介绍了流形学习和信息几何的基本知识和原理。流形学习的方面,主要介绍了主成分分析、线性判别分析两种线性降维算法和局部线性嵌入、t分布随机邻域嵌入等几种非线性降维算法,其中t分布随机邻域嵌入是下文讨论的核心。信息几何的
旅游业的发展需要高质的生态环境,“两山理论”为旅游生态环境的改善指明了方向,发展低碳旅游是践行“两山理论”的试验田,因此,研究“两山理论”背景下的旅游业利益相关者对低碳旅游支付意愿的态势,对旅游目的地的绿色发展具有重要的意义。本文以居民为视角,以徐州市贾汪区为案例地,从环境经济学和经济学的角度,运用条件价值法和Logit模型,研究了目的地居民对发展低碳旅游的支付意愿及影响因素,对居民支付意愿金额进
卫星电话主要应用场景是人口稀少且不易架设普通基站的沙漠、山地以及海洋等。由于其依赖卫星作为中继,所以价格通常会比较高,而信号以及话音质量却相对较差。虽然如此,但其在某些领域(如军事、文化传播、远洋、探险等)的作用是其他常规通信无法替代的。本文研究并实现了一款“基于全球卫星电话服务(GSPS)的海事卫星电话终端”,其主要应用在海洋场景。由于轮船变动的航向以及波动的海平面,从而对卫星电话天线还提出了一
综合管廊是近年来我国大力推行的一种市政工程形式,具有集约化程度高、节约地下空间、便于市政管线统一管理、减少因线路维修或重新施工造成的反复开挖等优点,社会效益显著,但从参与综合管廊工程建设的各方反馈来看,效益却不甚明显,其深层次原因是由于综合管廊工程功能和质量要求高,施工技术难度大,容易受到施工环境变化和设计方案不合理的影响导致工程造价上升,尤其对于施工承包方来说,设计变更的增多也会伴随施工成本的增
我国正处于城镇化发展和产业结构全面转型升级的新常态阶段,在此背景下,“产城一体”作为综合提升产业与城市发展质量的重要理念,对解土地资源不足问题、城镇化效率问题、可持续发展问题具有重大社会价值。嘉善作为上海周边典型的工业城市,一方面产业能级较低、城市服务功能落后,城市亟待扩容与功能提升,另一方面资源条件严重受限,必须向集约化发展转型,由此,建设一座“产城一体”的产业新城成为嘉善未来城市发展的必由之路
随着互联网信息化浪潮的迅猛推进,智能小区中的家庭用户对视听娱乐的需求越来越强烈。移动互联网时代的到来以及智能手机的迅速普及使得传统家庭中电视、电脑的使用率逐步降低,智能手机凭借其方便操作、易于携带等优势逐渐成为智能小区中家庭用户使用频率最高的设备。但与此同时,智能手机也存在明显的缺陷与不足:因空间容量的限制导致其计算能力和存储能力十分有限。如果能将家庭中的多种智能电子设备统一协调,实现彼此之间的互
本文研究的非对称悬索桥是一种新型结构,源于云南虎跳峡金沙江大桥,主要有以下3个特点:(1)主缆两端高度非对称:即主缆两端支承高度不同。同时,右岸主缆、吊索为传统构造,近左岸两组吊索下端锚固于加劲梁之外的地面,左右岸吊索受力及主缆线型有差异;(2)桥塔类型非对称:左岸以山为塔、右岸为传统桥塔,二者受力变形不一致,导致主缆某种程度的非对称性;(3)锚碇类型非对称:左岸为隧道锚、右岸为重力锚,二者受力变
随着5G时代的到来,无线通信技术在各个领域所展现出来的重要性也愈发明显,人们希望可以对电磁波实现更高要求的调控,其中对电磁波的极化调控正是国际上讨论的热点话题。传统结构的极化器件受限于制备材料的尺寸,加工难度,工作损耗等,并不能够很好的应用在太赫兹频段。超表面是一种基于超材料而产生一种特殊超材料,是人为设计的亚波长散射单元的微结构,通过金属-介质结构的阵列排布实现对电磁波的调控,其电磁特性参考了超