论文部分内容阅读
数据产生价值,数据也是统计科学发展的动力.随着科技的迅猛发展,数据收集成本的降低导致海量数据以涌现形式出现,这些数据不仅规模极其庞大,数据维度越来越高,而且数据结构也变得复杂,我们统称这些数据为大规模数据(large-scale data).这些数据频繁出现在各行各业,包括生物医学、工业生产、地球科学、通信系统、经济金融、人工智能等诸多领域.统计学家一直致力于开发能有效挖掘这些数据背后信息的统计程序和算法并为之提供理论支持.事实上,早在1922年,著名统计学家R.A.Fisher就指出:“统计方法的目的是缩减数据,是要从大规模数据中提炼出少量足以代表原始数据结构的指标,并把原始数据中真正有用的信息识别出来”.由于现代大规模数据的产生速度快、规模庞大、数据维度高以及结构复杂等特点,通常会导致一系列数据存储、计算、分析等操作技术和资源成本的问题.一般来讲,数据量大会造成不必要的数据存储计算成本和传输困难,高维数据或复杂数据结构会造成很多经典的处理方法失效,导致传统的统计方法很难满足各领域对数据分析的需求.因此,如何从大规模数据中挖掘并识别有用信息用于相应的统计分析和推断成为现代统计学一大重要挑战.本文结合当下复杂的数据特性,基于现代主流的统计分析手段,试图对上述若干问题提供一些新的解决思路.在如下相关前沿问题上展开讨论和研究,包括大规模数据中的模型检验、大规模数据中的分类和高维数据中重要变量的识别问题.前两个问题研究的是大规模数据中当样本量很大时,如何在不损失太多估计精度的前提下,通过子抽样方法来大大节约计算成本的检验和分类问题.第三个问题探讨的是大规模数据中当数据维度很高时,如何构造误差可控且与模型无关的变量选择方法,从而提高模型的有效性和可解释性.基于这个研究思路,下面简要介绍本论文各部分的主要内容.第一章绪论,包括一些背景介绍,以及后续章节中涉及到的基础知识和符号说明.我们首先引入了研究大规模数据的问题背景以及国内外目前的研究现状.然后介绍了大规模数据模型检验方法、最优子抽样方法、充分降维相关方法以及高维数据中错误发现率控制的相关知识.并对本论文的结构安排加以阐述.在第二章中,对于一般化的半参数模型,提出一种基于最优子抽样的模型检验方法.模型检验(model checking)是统计推断中一类重要的检验.在收集到一组数据后,人们往往直接使用事先指定的模型来解释这组数据,但可能并不了解所指定模型到底是否充分拟合该组数据.因此,有效的模型检验就发挥关键作用.目前已经有很多成熟的小样本或适度样本量的模型检验方法.尽管大规模数据集可以通过现代科技轻易获取,但在计算资源有限或响应变量很难收集时,与模型检验有关的挑战尚未得到很好的解决.再者,模型检验相当于是统计分析和推断的一个准备步骤,研究人员一般不愿意耗费太多的时间、空间以及金钱成本.因此,本章内容旨在研究“在大规模数据统计推断中,当给定有限的预算或资源时,我们如何以最优方式使用此预算进行有效的模型检验”.我们推导出一种最优的抽样策略,以便从大量原始数据中挑选一个小的信息子集.为了保证所构造的检验方法能达到渐近最优检验功效,我们提出了一种两步算法:第一步是通过一个试点研究最大化渐近功效为每一个样本分配一个抽样概率;第二步基于有限的资源确定子样本容量大小来抽取有效样本并构造模型检验统计量.另外,需要强调的一点是,由于我们探讨的是一般化的模型检验方法,比如可检验线性模型、单指标模型、可加模型或变系数模型等,难免会遇到多元非参数估计中的“维数灾难”问题.所以,我们充分利用模型的降维结构并结合充分降维方法(sufficient dimension reduction)以解决维数问题.检验统计量的理论保证也是分为人为指定降维方向和估计降维方向两部分讨论.通过随机模拟和实际数据的研究,验证了所提出的方法能很好的控制该检验的第一类错误概率,且在具有较高检验功效的同时可极大程度上节约计算和存储资源.本论文的第三章探讨了大规模数据中基于最优子抽样的分类问题.分类问题一直是统计分析和机器学习中的热点话题.支持向量机(support vector machine)以其较高的准确性、灵活性和稳健性从众多分类算法中脱颖而出.然而,其繁重的计算量大大阻碍了其在大规模数据中的应用.虽然现在已经开发了很多处理大规模数据的方法,如在线更新学习、分治策略和子抽样法.但研究表明,只有少量被称为支持向量(support vector)的样本点才会影响支持向量机分类超平面的位置.这就自然而然地启发我们从子抽样的角度来解决支持向量机的计算量问题.本章中,针对线性不可分的支持向量机我们提出了一种新的二元分类器,保证尽量在不损失太多估计精度的前提下尽可能多的减少计算复杂度.受回归中的杠杆得分抽样和矩阵逼近问题的启发,该方法旨在通过选择具有较大信息量的样本子集去减少训练数据的样本量大小以实现高效计算.在一般化的子抽样框架下,我们对支持向量机提出了一种新的观点,推导出分类超平面参数的渐近正态性,然后通过最小化渐近方差来推导抽样概率分布以达到某种最优标准.理论难点在于我们同时考虑了样本总体本身和抽样过程所带来的双重随机性,这使得该方法区别于大部分现有的最优子抽样的方法.本章设计了一个两步算法,包括一步最优抽样概率的估计和一步子抽样步骤来构建分类器,这为快速有效的优化并实施该方法提供了解决方案.在随机模拟中,我们从估计、预测和计算三个角度分别展示了其良好表现.该方法不仅计算速度快存储少,而且识别出的分离超平面接近在全样本上训练的支持向量机.同时,该方法的预测性能与其他流行的分类器相比具有较强的竞争力.第四章在高维数据中提出了一种新的误差可控且与模型无关的变量选择方法.随着科学技术的快速发展,各种类型的高维数据频繁出现在基因、金融、航天等诸多领域.充分降维是一种从高维数据中提取相关有用信息且不损失原始数据信息的强大技术,但现有方法所得到降维子空间通常是与所有的原始变量有关.当变量维数非常大时,导致模型可解释性大打折扣.虽然研究者已经开发了很多适用于各式各样复杂结构高维数据的变量选择方法,但这些方法只是能提供一种变量选择的方法,并没有度量选择的不确定性从而不能反映所选出的变量子集中到底有多少变量是被错误选择到的.因此,如何从高维数据中识别重要变量并其控制错误发现率(false discovery rate)便成为一个很重要的统计问题.本章中,我们在充分降维的框架下,通过数据分割(datasplitting)的手段分别在低维数据和高维数据中提出一种误差可控且与模型无关(model-free)的变量选择方法.该方法首先是通过一个响应变换函数把一般的模型转为求解最小二乘估计问题.然后通过构造一系列边际对称的统计量和一个数据驱动(data-driven)的临界值,来实现变量选择中整体的错误发现率的控制.众所周知,在高维情况下统计量的渐近分布一般很难获得甚至是不存在的.得益于数据分割所带来的统计量的对称性,使得我们的方法区别于大部分现有的变量选择方法,既不需要近似统计量的渐近分布,同时也能够只通过数据驱动的临界值控制住错误发现率.在一些较弱的条件下,我们证明了该方法能精确控制有限样本下的错误发现率同时也能实现大样本下的错误率控制.通过数值模拟和高维疾病基因识别的实际例子,展示了该方法相较于其他方法以较高的检验效率来更快更准确的控制错误发生率.在第五章中,对全文的研究内容进行总结,并对未来工作提出了一些可能的设想和规划.本文所关注的问题只是众多前沿统计问题中一个很小的领域,但我们在大规模数据集上基于最优抽样的检验和分类方法具有很强的拓展性,理论上只要所关注的问题可进行子抽样,这些方法就可做进一步推广以节约资源,但具体问题还需深入探讨.高维数据中误差可控的数据驱动变量选择方法也可推广至许多其他问题并做深一步的研究,如因子模型、低秩矩阵估计等领域.