论文部分内容阅读
唾液中包含着大量的蛋白质分子,其中很多异常表达的蛋白与疾病检测相关,而且唾液样本相对于其它体液比如血液和尿液更容易获取,因而唾液逐渐成为进行无损检测疾病标志物的重要体液。幸运的是,飞速发展的分子生物学中的组学技术,例如基因组学、蛋白质组学、代谢组学、转录组学等,以及计算机科学中的机器学习、模式识别等算法在研究工作中的渗透,为标志物的发掘提供了新的思路和科学方法,使得在多种生物大分子中检测出重要所需标志物的过程变得简洁和高效。本文主要应用基于分类机制的挖掘方法,来识别那些由于过度表达而可能分泌到唾液中的蛋白分子。首先通过Sys-BodyFluid和Pfam两个数据库筛选出机器学习算法需要的训练集和测试集的数据,结合血液和尿液中疾病标志物挖掘的计算方法所选用的属性集以及通过唾液蛋白基因本体功能富集分析确定的关键词属性,本文构建了唾液蛋白的原始属性集,并提出了结合EBD离散化方法以及FCBF#属性选择的特征选取算法,构建了基于支持向量机(SVM)的分类器。分类器在1183个蛋白的测试集分类准确率在85%。然后将分类器用于来自Oncomine和ArrayExpress两个数据库中由于胃癌而过度表达蛋白的分析和判断。结果判断出320个过度表达的蛋白具有唾液蛋白的特性,即有可能分泌到唾液中。经过GeneCards和iHOP两个数据库的文献查询和分析,进一步明确32个蛋白可以作为唾液中胃癌检测的专一性标志物。本文对结果进一步进行了分析,通过对这些专一性蛋白的路径富集分析,寻找到与癌症细胞增长和扩散有关的蛋白,并基于这些蛋白构建蛋白质相互作用(PPI)网络图,结合网络图的拓扑分析,寻找到具有更高优先级作为唾液中胃癌标志物的蛋白。最后,本文结合文献查询和分析的方法,对其中几个挖掘出的标志物进行了确认、解释和说明。综上所述,本文将生物信息学中的标志物挖掘问题转化为数据挖掘中的分类问题,这是一种综合的以及实验友好的挖掘唾液中胃癌标志物的方法。