论文部分内容阅读
技术进步与革新往往以一种明显而有效的方式促进科学的发展。在最近20年里,现代分析仪器与计算机技术得到了迅猛的发展,使得分析化学领域样本量测,数据采集与数据分析的手段发生了革命性的变化,极大的促进了分析化学与系统生物学研究与发展。当今化学与生命科学研究中的样本往往具有极高的复杂性,其物质组成、物质含量、物质间的相互作用及物质与其含量在时间方向上的动态变化,在很大程度上都是未知的。此类样本首先为分析化学家提出了极大挑战。幸运的是,高通量分析仪器的产生和发展使得分析化学家能够同时从成千上万个分析通道(光谱的波长,质谱的质荷比或者基因芯片中的基因)获取实验样本的数据,进而可采用数学或者统计学方法对数据进行分析,以期获得有价值的化学或生物信息。此类分析体系的建模尚无可靠的物理或者化学规律可依,而且模型线性或者非线性未知,其解析具有很高的挑战性,梁逸曾教授将其称为广义灰色分析体系(Generalized Gray Analytical Systems)。而且,注意到此类体系的量测变量个数p往往非常大,少则上百,多则百万,同时由于样本采集或者实验成本等原因,样本的数量n往往相对非常少。这就产生了著名的" large p, small n"难题,它又为广义灰色分析体系的解析提出了新的问题。我们认为,广义灰色分析体系的解析目前仍存在三个基本问题:模型评价、变量选择与模型应用域的定义。这三个基本问题仍属于统计学领域和化学计量学领域尚未很好解决的问题。对于这三个问题的解答,目前的方法大都是建立在单个数据及单个模型的基础上的,并没有考虑到样本的变化和变量的变化对分析结果的影响。因此,采用此类方法得到的分析结果(如模型评价结果,筛选出的变量或模型应用域)仍值得商榷。针对此问题,我们自主提出了复杂数据分析的全新的一般性思路,即模型集群分析(Model Population Analysis, MPA)。基于MPA的数据分析方法可望解决现有的模型评价、变量选择以及模型应用域分析方法的缺陷。借助于MPA这个思路平台,我们主要研究并建立了新型的基于统计分布的模型评价与变量选择算法并在模拟和实验数据上进行了全面的验证,获得了令人满意的结果。另外,我们亦对模型应用域进行了初步的探索。本论文研究内容主要包括四个部分:模型集群分析(第二章),模型评价(第三章),变量选择(第四到九章)与模型应用域(第十章),简述如下:一、首先提出了模型集群分析的产生背景及其基本要素。任何基于数据的模型都势必受到样本和变量的影响,因此变量选择也会受到相应的影响。然而,文献报道的变量选择方法往往都是基于单个数据和单个模型的,而未考虑到样本变化和变量的变化所带来的影响。通过不断的改变样本和变量而建立多个模型,我们发现,变量的重要性呈现出一稳定的统计分布,此分布证实了变量重要性的不确定性,反映了数据的变化对分析目标产生的影响,为理解数据和建立模型提供了全面的信息。据此,我们认为基于对一大群模型的统计分析,可望能够为建立和发展新型的化学计量学算法提供新的思路。基于这些认识和理解,我们提出了模型集群分析,其主要思路就是通过蒙特卡洛采样,利用一大群子模型来考察数据的内在性质,最终获取我们感兴趣的参数(样本空间,变量空间,参数空间与模型空间)的统计分布,从而实现对有限样本的最大信息获取。从这一角度看来,模型集群分析与贝叶斯分析有类似功效,通过强调参数分布,与单模型分析形成了强烈对比。简言之,模型集群分析用时间换取空间,从不同的侧面对数据进行分析,对信息进行提取,与苏轼的诗句“横看成岭侧成峰,远近高低各不同”不期而合。(第二章)二、基于模型集群分析,我们提出了模型预测能力的统计比较方法。模型比较是化学计量学中的重要研究内容。然而,在当前已发表的大多数科研论文中,对模型预测能力的比较仅仅建立在一个单独的测试集或者固定样本分组后的单次交互检验上。显而易见,这样的比较具有得出错误结论的风险。利用MPA的思想,通过不断改变测试集或者改变训练集的样本划分,获取了不同变量集的测试预测误差或者交互检验误差的分布。对它们的分布进行统计检验,最终得到可靠的结论。将此方法应用于近红外数据和代谢数据的分析,结果显示此方法能够避免得出错误结论的风险,显著提高了变量预测能力比较的可靠性。(第三章)三、基于模型集群分析,我们建立了子窗口重排分析(Subwindow Permutation Analysis, SPA)的变量选择方法。此方法的基本假设是有信息变量在重排后会引起模型预测精度的显著降低,而无信息变量由于不能提供分类信息,因此是否重排对模型预测精度无明显影响。首先通过蒙特卡洛技术同时从样本和变量空间采样,获取N个子训练集和N个子测试集,利用偏最小二乘线性判别分析建立N个分类模型。继计算每个变量重排前后在测试集上的模型预测误差,最终获取重排前后的两组预测误差。通过对这两组预测误差的差异进行统计检验,实现对变量重要性的可靠的评价。将此方法应用于Ⅱ型糖尿病和儿童超重的代谢数据分析,结果显示筛选出的少数几个重要代谢物不但能够显著提高模型预测精度,而且亦从文献报道中得到了生物学的验证。(第四章)四、基于模型集群分析,我们设计了专门适用于支持向量机(Support Vector Machines, SVM)的变量选择方法。基于结构风险最小化的SVM模型在各个领域得到了广泛的应用,但适于SVM的变量选择的方法鲜有报道。表征SVM预测性能的核心参数为其模型的间隔(margin),间隔大的SVM模型具有更低的结构风险与较优的泛化性能。基于此性质,我们提出了间隔影响分析(Margin Influence Analysis, MIA)方法。我们通过变量空间的蒙特卡洛采样建立N个SVM模型并计算相应的N个间隔。然后,根据模型是否含有某个给定变量,将所有模型分为两组,相应的间隔也分为两组。通过对这两组分布进行统计检验,筛选出能够显著增加SVM的间隔的变量。将此方法应用于两组基因表达数据的分析,得到了具有竞争力的结果。(第五章)五、利用模型集群分析的思想,我们发展了竞争自适应重加权采样(Competitive Adaptive Reweighted Sampling, CARS),提出采用预测误差分布对CARS选出的变量集进行更加全面的评价,可望得到可靠的结果。实验表明,CARS方法具有筛选出较优的变量组合的能力,能够显著改善模型的预测性能。(第六章)六、利用模型集群分析的思路,提出了研究变量的条件重要性的一种方法。首先在变量空间进行采样,得到N个子数据集,建立N个子模型,并计算每个模型的预测误差。对于每个变量,抽取含有此变量的最好的一部分(如5%)模型。采用这组最优模型的预测误差的中位数的倒数作为变量的条件重要性的评价指标,该指标能够反映出某个变量在别的变量存在时的重要性。利用此方法,分析了来源于芬兰青少年心血管疾病研究项目中的代谢综合征数据和动脉粥样硬化数据,发现此方法能够有效筛选出仅与别的变量共存时才能表现出预测能力的变量。生物学检验表明该方法适合于生物标记物的筛选。(第七章)七、利用模型集群分析的思路,并结合逆跳马尔科夫蒙特卡洛(RJMCMC)的想法,提出了一种非常适合于在高维空间中搜索变量组合的方法,称之为随机青蛙(Random Frog)。采用了按概率对备选模型进行接受的准则,并提出了一种自适应的基于正态分布的模型维数转换机制,从而得到N个具有不同维数的模型。统计分析每个变量在这N个模型中选择概率,将其作为重要性的评价指标。在两组基因表达分类数据上的测试结果显示此方法选出的基因具有很强的分类能力,利用这些基因建立的主成分分析模型亦能将正常样本和疾病样本完全分开,充分说明了此方法在揭示判别模式方面极具潜力。(第八章)八、利用模型集群分析的思路,提出了变量互补信息网(Variable Complementary Network, VCN),对我们首次提出的变量互补信息这个概念进行了定量研究。生命体是一个系统,生物变量之间相互依存并共同作用。因此,对变量互补信息的研究具有重要意义。基于多变量模型的回归系数,我们提出了变量互补信息的计算公式,并采用图方法将变量互补信息进行了可视化,得到了变量互补网。此网非常直观的揭示了变量之间的互补关系,同时也为筛选生物标记物提供了一种全新的思路。将此方法应用于Ⅱ型糖尿病和老鼠术后认知障碍数据的分析,得到了非常漂亮的结果。(第九章)九、我们提出了从组分光谱空间和/或量测变量空间来看待样本间的相似度以及分析模型应用域的想法。组分空间用于物种层面的定性评判,任何未纳入校正模型的干扰组分将使测试样本偏离应用域;而对变量空间的分析则可以考虑变量对建模的有效性,任何与分析目标无关的干扰变量均无益于模型应用域的定义,因此变量选择对模型应用域的定义至关重要。我们从分析体系组分空间的角度,对模型应用域作了初步的探索研究。(第十章)