论文部分内容阅读
以人类基因组计划(human genomes project, HGP)结束为标志,人类进入了后基因组时代。在后基因组时代,人类以研究基因功能为重点。基因芯片以其快速、高通量、准确性高等突出优点成为研究基因功能不可缺少的重要工具。基因芯片数据分析是基因芯片技术研究中的重要内容,属生物信息学研究领域。本文主要对基因芯片数据分析中的聚类功能评价和判别分析进行深入研究。第一、聚类分析是基因芯片数据分析的重要方法,其目的是根据基因表达模式对基因分类,根据基因分类推测基因功能。然而由于聚类结果受到聚类算法和聚类参数的影响,使用不同的聚类算法和不同的聚类参数常常会产生不同的聚类结果,如何从基因功能相似性的角度评价聚类结果是聚类分析中的难点。本文第四章和第五章以此为切入点对聚类的功能评价算法进行研究。研究出了一种新的基因注释语义相似度计算方法,这种方法根据基因在基因本体(gene ontology, GO)上的注释计算基因的功能相似程度,并以酵母菌的异亮氨酸代谢通路和谷氨酸生物合成代谢通路为实验,证明了这种算法的准确性。在基因注释语义相似度计算方法的基础上,研究出了基因芯片数据聚类的功能评价算法,这种算法以类间基因功能的差异程度和类内的功能相似程度来评价聚类质量,并以酵母菌表达数据为例,表明用这种方法可以准确评价聚类结果的质量,在这种聚类功能评价算法的指导下可获得高质量的聚类结果。第二、判别分析也是基因芯片数据分析的重要内容,是基因芯片应用于临床诊断必须解决的重要问题之一。我国是肝癌多发国家。microRNA芯片数据和基因芯片数据均可以对肝癌转移作出预测。microRNA通过调控相应靶基因的表达来发挥其生物功能。用来预测的microRNA和用来预测的基因,即特征microRNA和特征基因之间是否存在调控与被调控的关系?第六章以此为切入点对肝癌转移相关的特征microRNA和特征基因的提取,及两者间的关系进行了研究。研究出了一种t交叉权重的方法,这种方法以重复随机抽样进行t检验来计算基因的权重,t交叉权重的优点在于可以根据基因权重大小在判别分析中逐渐扩大特征基因集,与不同的支持向量机核函数结合,在交叉验证变化趋势的指导下,选择合适的特征microRNA集和特征基因集。结果在microRNA芯片数据集和基因芯片数据集中,分别选取了100个特征microRNA和710个特征基因。根据这100个microRNA的表达数据,用多项式核函数的支持向量机预测肝癌转移准确率在83.99%以上;根据这710个特征基因的表达数据,用线性核函数的支持向量机预测准确率在96.76%以上,表明预测准确度良好。对这些特征microRNA和特征基因作进一步分析,发现两者间存在调控与被调控的关系,这提示肝癌的转移可能与这些特征microRNA调控相应的特征基因有关。分析中还发现,特征基因集的功能主要富集于细胞周期代谢通路(P=0.0006),说明细胞周期代谢通路改变可能与肝癌转移有密切关系。本文的创新点主要体现在以下几个方面:(1)研究出了一种新的计算基因注释语义相似度算法。利用这种算法可以将基因功能相似性用数据形式度量出来,突破了以往只有模糊比较基因相似性的缺陷;利用这种算法可大批量比较基因的相似度,与手工相比具有高效准确等优点。(2)研究出了一种新的基因表达数据聚类结果评价算法。该算法实现了从基因功能相似性的角度评价聚类结果,解决了以往只能从数据的数学特征评价聚类结果的不足,从而可获得更高质量的聚类结果。(3)提出了一种新的特征基因提取方法。这种方法将多次t检验的结果转化为基因的权重值,根据权重值大小结合不同核函数的支持向量机来选择特征基因集和核函数,克服了随机试验选择特征基因集和核函数的缺点。(4)发现了肝癌转移相关的特征microRNA与特征基因之间存在调控与被调控的关系。对基因芯片数据的聚类功能评价算法研究和肝癌转移特征基因提取研究具有重要的学术价值和应用价值。首先利用聚类功能评价算法可获得更高质量的聚类结果,对基因功能作出更准确分类;其次提取的特征microRNA和特征基因可以提高预测肝癌转移的准确度;所构建的microRNAs-Genes调控网络为肝癌转移机理研究提供了新思路;同时基因注释语义相似度算法和t交叉权重法分别可用于其它类似的基因注释相似度比较和判别分析的研究中。