论文部分内容阅读
宫颈癌是全世界女性最常患的肿瘤类妇科疾病之一,其发病率仅次于乳腺癌。大量的基础与临床研究发现,高危险型HPV持续感染是诱发宫颈癌的关键因素之一。近年来,中国报道了大量的HPV高危型的突变数据,与野生型病毒相比,感染宫颈的HPV高危型存在多种突变模式。目前,大部分宫颈癌HPV的研究只关注通过HPV序列本身,忽略了临床病变信息。本文以为宫颈癌HPV分型中蛋白质序列、结构为对象,围绕蛋白质结构比较、分型预测模型,以及HPV突变与序列、结构之间的关系开展研究。具体工作如下:1、综述了人乳头瘤病毒与宫颈癌的基础知识,包括人乳头瘤病毒分型、结构、功能、人乳头瘤病毒导致的相关疾病、人乳头瘤病毒与宫颈癌的关系,为本文接下来的研究工作提供了理论基础和依据。2、提出了一种基于马尔科夫随机场的蛋白质结构相似性分析方法。在距离矩阵分布和不同节点的邻域系统的基础上,建立了改进的接触图矩阵,并通过计算马尔科夫随机场中的条件概率度量蛋白质结构之间的差异。结果表明,本文提出的蛋白质结构比较方法可以有效地度量不同多肽或者蛋白质结构之间的差异。此外,本文还发现alpha-C、O、和N端包含重要的结构信息,而侧链的原子集团会影响到模型的效率;通过分析马尔科夫随机场邻域系统的阶数,发现效率最高的马尔科夫随机场往往采用2个节点的邻域系统。3、构建了一个基于氨基酸特性的宫颈癌HPV分类预测模型。本文采用氨基酸的物化性质对20种常见氨基酸进行约化,6种特征信息提取方法提取蛋白质序列信息,利用支持向量机实现对宫颈癌HPV分型预测。实验表明,本文提出的预测模型可以准确地识别高危型HPV和低危型HPV,比现有的方法更有效。此外,本文还发现若利用E5、E6、E7、L1和L2蛋白质对HPV分型,最好选择氨基酸的beta类物化性质进行约化;若利用E1、E2、E4、E5和E7蛋白质,则PRseAAC蛋白质特征表现最优;而对于E6、L1和L2蛋白质,RTCD这类蛋白质特征的表现优于其余特征。4、研究了HPV突变与序列、结构之间的关系。本文通过文献检索,整理了大量的国内宫颈癌HPV的突变数据,并研究了突变位点与序列保守区域、结构保守区域的关系。结果表明,E6、E7和L1蛋白质中突变个数分别是134、86和166,远远大于其余蛋白质的突变数量;E2 N端的3159突变可以改变蛋白的免疫功能;HPV低危型E6有11个突变,其中9个突变落在p53蛋白结合区域或者是抗原决定簇区域;HPV高危型的E6有91个突变,有49个突变种类落在p53蛋白结合区域或者是抗原决定簇区域;突变落在E7功能域内的比例最高,大约93%以上的突变都落在了功能域区。