论文部分内容阅读
在人类基因组研究计划的基础上,萌发了一门新兴的学科—蛋白质组学(Proteomics),即从蛋白质组的水平进一步认识生命活动的机理和疾病发生的分子机制。在国际上,蛋白质组学的研究是上个世纪末开始起步的,在国内,有关研究是从2001年起步,主要涉及人类重大疾病的蛋白质组学研究,新的疾病诊断蛋白质标记物发现等。随着表面增强激光解析电离-时间飞行质谱(SELDI-TOF MS)技术的推出,卵巢癌、乳腺癌、肺癌、前列腺癌等十余种肿瘤的血清特异性蛋白质生物标记物都得到了部分验证。癌症病人血清的SELDI-TOF MS数据中富含的生物学和医学信息还有待于我们去挖掘。卵巢癌是严重威胁妇女健康的恶性肿瘤,超过80%的病人是在临床晚期被发现,在这些病人中,5年生存率只达到35%。相反,在早期得到临床诊断的卵巢癌病人的5年生存率超过90%。由于卵巢位于盆腔深部,早期无任何症状,而且目前无有效的筛选和特异的诊断方法,所以对卵巢癌早期检测是非常重要的。对此,血清蛋白组学带来了曙光。本文采用模式识别的方法对美国食品和药物管理局(FDA)及国家肿瘤研究所(NCI)提供的卵巢癌SELDI-TOF MS数据进行了研究。通过统计学方法和遗传算法一偏最小二乘工具箱的相结合进行特征筛选,得到10个最具有特征的质荷比(m/z)值。这10个特征m/z值的分子量全部集中在小于500的区域,这个区域称为低分子量(LMM)区域,蕴涵着丰富的信息,目前对这个区域的蛋白质分子的研究还是十分有限。对筛选出的特征值矩阵(253×10),我们进行了模式识别分类判别方法的比较研究。这些判别方法包括人工神经网络(Artificial Neural Networks,ANN)和支持向量机(Support Vector Machines, SVM)两种非线性的分类方法以及贝叶斯判别分析(Bayes Discrimination Analysis, BDA)、费歇尔线性判别(Fisher Linear Discrimination, FLD)、K最近邻法(K-nearest neighborclassification method, KNN)三种线性的分类方法。其中,采用BDA和KNN这两种方法就可以完全把癌症组样本跟正常组100%分开,结果达到了SVM和ANN两种非线性分类器的精度。研究结果表明这个特征矩阵是线性可分的,线性分类器就可以满足该类型癌症和正常样本的分类要求。本文发现的这10个特征质荷比值,它们所构建模型的分类结果都比较好,如果能够在生物学和医学上对它们进行验证,证明每一个m/z值是否对应着特殊的疾病蛋白质分子,或许我们就可以从中发现新的卵巢癌标记物,进一步揭示卵巢癌的病理过程。SELDI-TOF MS辅助的血清蛋白质组学这一全新技术具有高通量、全面和动态地研究蛋白质变化的特点,尤其是在早期诊断肿瘤标记物发现方面更具优越性。我们可以根据变化的蛋白质分子信息来分析癌症的信号转导、凋亡、浸润和化疗耐药性机制,从而为癌症的早期诊断、治疗及预后判断提供新的方法和策略。本文对卵巢癌蛋白质SELDI-TOF MS数据进行特征筛选,提取出致病蛋白质中的几个重要的特征蛋白质,如果在下一步的工作中能在生理意义上对其做出诠释跟论证,对卵巢癌致病机制的研究和临床诊疗将有着十分重要的意义。