基于分子可视化与机器学习的蛋白质功能分析研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:aote_jeanny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于蛋白质功能的认识在医药科学领域和农业领域的发展中有着至关重要的作用。目前,通过大规模测序技术获取了大量未知功能的蛋白质。借助计算机技术理解蛋白质结构、性质和功能是对传统生物实验方法的有效补充。这些技术主要分为直观展现分子性质的可视化技术以及利用计算机注释蛋白质功能的预测技术。当前研究取得了一定成就,但仍面临着重大挑战:平滑分子表面可视化对昂贵计算能力、绘制的实时性和逼真性的要求;多尺度可视化中带来的抽象模型膨胀问题;目前蛋白质功能预测算法的准确度仍旧难以满足实际应用等问题。本文将从提高大规模分子表面可视化性能、优化抽象层次效果、提出准确度更高的蛋白质功能预测模型等方面展开研究。首先,针对生物大规模场景包含大量分子导致绘制效率不能达到实时性能的问题,提出一种与残基相关的层次聚类算法。通过基于残基的层次聚类算法保证在聚类过程中保留所有残基,维持了分子可视化常用的生物特性;以基于体积的距离度量方式替代传统层次聚类的距离度量,与传统方法相比,基于空间体积的方式更适合三维结构的原子,能有效的提高聚类效果;以残基的层次聚类树快速构建蛋白质聚类过程,提高了层次聚类的性能;对于离散化蛋白质各层次抽象后的过渡问题,设计用于判断抽象层次的最大屏幕空间误差,在绘制过程中根据空间误差与阈值的关系进行自适应判断,实现层次抽象的过渡。其次,针对LOD(Levels of Detail)技术生成的层次抽象在简化几何模型时会引起模型膨胀的问题,设计一种基于椭球包围体的LOD大分子渲染技术,以残基相关的层次聚类算法为基础,通过构造一个完整的二叉树改善抽象层次过渡的平滑性;以椭球包围体替代传统的球包围体,降低高抽象层次中几何模型引起的视觉膨胀问题;通过引入适当的后处理技术,进一步弱化了膨胀引起的视觉问题。以球体的光线投射算法为基础,设计一种基于GPU(Graphics Processing Unit)的椭球绘制方法,确保分子模型的绘制性能。最后,对于分子功能的理解除依靠分子表面可视化技术外,还可通过机器学习的统计手段对蛋白质功能进行预测,本文主要从分子表面参数化和关系推理模型两个方面展开研究。通过可视化技术将附加原子物理-化学特性和几何特性的分子表面映射为特征图像;针对传统CNN(Convolutional Neural Networks)模型仿射不变性的能力不足,利用胶囊网络的深度模型验证分子表面与功能的关联。同时,现有蛋白质功能预测方法受限于CNN模型对输入尺寸的要求,需先将氨基酸扭转角和相互距离等特征简化处理,针对此损失氨基酸间关系信息的问题,设计一种基于关系网络的训练架构,直接使用非固定长度的残基序列进行关系推理,提高功能预测的准确度。上述层次化分子渲染以及基于机器学习的蛋白质功能预测算法已经在相关实验中得到验证并集成到可视化分析平台中,起到辅助用户交互式、快速、准确理解蛋白质的结构和功能的作用。
其他文献
苏州评话自明末清初形成以来,便有其独具一格的传统特色。在书目题材上,大多是讲述列国征战、英雄豪杰的故事,这和以恩怨纠葛、儿女情长为主的弹词题材差别甚大。在表演上,传
将并联机构应用于海浪发电技术领域具有重要的理论研究意义及工程应用价值。目前国内外现有的振荡浮子型波浪能量转换装置其浮子多为单自由度运动,基于并联机构或串并混联机
根据IPCC预测,与1850-1900年相比,到2030-2052年地球表面温度将升高1.5℃。大量的研究表明,气候变暖会对水稻生产和粮食安全产生严重影响。籼稻是国人最重要的口粮作物之一,2
江苏省常州市常隆公司、常宇公司、华达公司在产品生产过程中造成污染物泄漏,物料存放不规范、废水未经处理后排放、废物废液管理不规范,导致工厂所在范围内的土壤、地下水污染严重。自然之友、绿发会提起环境民事公益诉讼,现本案二审程序已经终结。本案二审过程中主要有三个争议焦点:第一,被上诉人是否应当承担生态环境损害民事责任;第二,被上诉人是否应当承担土壤污染风险管控责任;第三,被上诉人是否应当承担土壤污染修复
庐山是长江中下游大平原上的“生态交汇岛”,保存了较为完整的生态系统。庐山同时也是国家重点风景名胜区,长期受到人为活动影响,土地利用变化程度较大,给自然生态系统带来沉
肝癌是威胁人类健康的重大疾病,位居全球恶性肿瘤发病率的第六位,每年新发病例626000多例,其中约半数发生在我国,死亡率位居中国各种肿瘤死亡率的第2位。肝癌恶性程度高,许多
伴随着国民经济的发展,大豆已经成为我国四大粮食作物之一。因此,需要针大豆作物配套全程机械化生产设备。大豆小区播种机作为科研院所进行育种培育试验的机械,是整个大豆产
小分子或有机凝胶通常是指小分子凝胶因子分子借助自身结构所产生的氢键、π-π堆积、范德华力和静电作用力、亲疏水作用等超分子作用力进行自组装形成三维纤维网络结构,进而
清廷仿前朝易代修史之传统纂修《明史》。学界目前关于《明史》纂修过程、清前期诸帝与修史的关系、修史人员的建议与成果、史稿之源流考订的研究已经十分丰富。本文关注《明
相比传统空间信息系统主要处理物理空间的点线面体矢量数据与相关的属性数据,新一代空间信息系统处理的数据具有典型的多模态特征。多模态时空数据充分刻画了人机物三元空间