论文部分内容阅读
对于蛋白质功能的认识在医药科学领域和农业领域的发展中有着至关重要的作用。目前,通过大规模测序技术获取了大量未知功能的蛋白质。借助计算机技术理解蛋白质结构、性质和功能是对传统生物实验方法的有效补充。这些技术主要分为直观展现分子性质的可视化技术以及利用计算机注释蛋白质功能的预测技术。当前研究取得了一定成就,但仍面临着重大挑战:平滑分子表面可视化对昂贵计算能力、绘制的实时性和逼真性的要求;多尺度可视化中带来的抽象模型膨胀问题;目前蛋白质功能预测算法的准确度仍旧难以满足实际应用等问题。本文将从提高大规模分子表面可视化性能、优化抽象层次效果、提出准确度更高的蛋白质功能预测模型等方面展开研究。首先,针对生物大规模场景包含大量分子导致绘制效率不能达到实时性能的问题,提出一种与残基相关的层次聚类算法。通过基于残基的层次聚类算法保证在聚类过程中保留所有残基,维持了分子可视化常用的生物特性;以基于体积的距离度量方式替代传统层次聚类的距离度量,与传统方法相比,基于空间体积的方式更适合三维结构的原子,能有效的提高聚类效果;以残基的层次聚类树快速构建蛋白质聚类过程,提高了层次聚类的性能;对于离散化蛋白质各层次抽象后的过渡问题,设计用于判断抽象层次的最大屏幕空间误差,在绘制过程中根据空间误差与阈值的关系进行自适应判断,实现层次抽象的过渡。其次,针对LOD(Levels of Detail)技术生成的层次抽象在简化几何模型时会引起模型膨胀的问题,设计一种基于椭球包围体的LOD大分子渲染技术,以残基相关的层次聚类算法为基础,通过构造一个完整的二叉树改善抽象层次过渡的平滑性;以椭球包围体替代传统的球包围体,降低高抽象层次中几何模型引起的视觉膨胀问题;通过引入适当的后处理技术,进一步弱化了膨胀引起的视觉问题。以球体的光线投射算法为基础,设计一种基于GPU(Graphics Processing Unit)的椭球绘制方法,确保分子模型的绘制性能。最后,对于分子功能的理解除依靠分子表面可视化技术外,还可通过机器学习的统计手段对蛋白质功能进行预测,本文主要从分子表面参数化和关系推理模型两个方面展开研究。通过可视化技术将附加原子物理-化学特性和几何特性的分子表面映射为特征图像;针对传统CNN(Convolutional Neural Networks)模型仿射不变性的能力不足,利用胶囊网络的深度模型验证分子表面与功能的关联。同时,现有蛋白质功能预测方法受限于CNN模型对输入尺寸的要求,需先将氨基酸扭转角和相互距离等特征简化处理,针对此损失氨基酸间关系信息的问题,设计一种基于关系网络的训练架构,直接使用非固定长度的残基序列进行关系推理,提高功能预测的准确度。上述层次化分子渲染以及基于机器学习的蛋白质功能预测算法已经在相关实验中得到验证并集成到可视化分析平台中,起到辅助用户交互式、快速、准确理解蛋白质的结构和功能的作用。