大规模数据中抽样和变量选择的若干研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:douzixia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据产生价值,数据也是统计科学发展的动力.随着科技的迅猛发展,数据收集成本的降低导致海量数据以涌现形式出现,这些数据不仅规模极其庞大,数据维度越来越高,而且数据结构也变得复杂,我们统称这些数据为大规模数据(large-scale data).这些数据频繁出现在各行各业,包括生物医学、工业生产、地球科学、通信系统、经济金融、人工智能等诸多领域.统计学家一直致力于开发能有效挖掘这些数据背后信息的统计程序和算法并为之提供理论支持.事实上,早在1922年,著名统计学家R.A.Fisher就指出:“统计方法的目的是缩减数据,是要从大规模数据中提炼出少量足以代表原始数据结构的指标,并把原始数据中真正有用的信息识别出来”.由于现代大规模数据的产生速度快、规模庞大、数据维度高以及结构复杂等特点,通常会导致一系列数据存储、计算、分析等操作技术和资源成本的问题.一般来讲,数据量大会造成不必要的数据存储计算成本和传输困难,高维数据或复杂数据结构会造成很多经典的处理方法失效,导致传统的统计方法很难满足各领域对数据分析的需求.因此,如何从大规模数据中挖掘并识别有用信息用于相应的统计分析和推断成为现代统计学一大重要挑战.本文结合当下复杂的数据特性,基于现代主流的统计分析手段,试图对上述若干问题提供一些新的解决思路.在如下相关前沿问题上展开讨论和研究,包括大规模数据中的模型检验、大规模数据中的分类和高维数据中重要变量的识别问题.前两个问题研究的是大规模数据中当样本量很大时,如何在不损失太多估计精度的前提下,通过子抽样方法来大大节约计算成本的检验和分类问题.第三个问题探讨的是大规模数据中当数据维度很高时,如何构造误差可控且与模型无关的变量选择方法,从而提高模型的有效性和可解释性.基于这个研究思路,下面简要介绍本论文各部分的主要内容.第一章绪论,包括一些背景介绍,以及后续章节中涉及到的基础知识和符号说明.我们首先引入了研究大规模数据的问题背景以及国内外目前的研究现状.然后介绍了大规模数据模型检验方法、最优子抽样方法、充分降维相关方法以及高维数据中错误发现率控制的相关知识.并对本论文的结构安排加以阐述.在第二章中,对于一般化的半参数模型,提出一种基于最优子抽样的模型检验方法.模型检验(model checking)是统计推断中一类重要的检验.在收集到一组数据后,人们往往直接使用事先指定的模型来解释这组数据,但可能并不了解所指定模型到底是否充分拟合该组数据.因此,有效的模型检验就发挥关键作用.目前已经有很多成熟的小样本或适度样本量的模型检验方法.尽管大规模数据集可以通过现代科技轻易获取,但在计算资源有限或响应变量很难收集时,与模型检验有关的挑战尚未得到很好的解决.再者,模型检验相当于是统计分析和推断的一个准备步骤,研究人员一般不愿意耗费太多的时间、空间以及金钱成本.因此,本章内容旨在研究“在大规模数据统计推断中,当给定有限的预算或资源时,我们如何以最优方式使用此预算进行有效的模型检验”.我们推导出一种最优的抽样策略,以便从大量原始数据中挑选一个小的信息子集.为了保证所构造的检验方法能达到渐近最优检验功效,我们提出了一种两步算法:第一步是通过一个试点研究最大化渐近功效为每一个样本分配一个抽样概率;第二步基于有限的资源确定子样本容量大小来抽取有效样本并构造模型检验统计量.另外,需要强调的一点是,由于我们探讨的是一般化的模型检验方法,比如可检验线性模型、单指标模型、可加模型或变系数模型等,难免会遇到多元非参数估计中的“维数灾难”问题.所以,我们充分利用模型的降维结构并结合充分降维方法(sufficient dimension reduction)以解决维数问题.检验统计量的理论保证也是分为人为指定降维方向和估计降维方向两部分讨论.通过随机模拟和实际数据的研究,验证了所提出的方法能很好的控制该检验的第一类错误概率,且在具有较高检验功效的同时可极大程度上节约计算和存储资源.本论文的第三章探讨了大规模数据中基于最优子抽样的分类问题.分类问题一直是统计分析和机器学习中的热点话题.支持向量机(support vector machine)以其较高的准确性、灵活性和稳健性从众多分类算法中脱颖而出.然而,其繁重的计算量大大阻碍了其在大规模数据中的应用.虽然现在已经开发了很多处理大规模数据的方法,如在线更新学习、分治策略和子抽样法.但研究表明,只有少量被称为支持向量(support vector)的样本点才会影响支持向量机分类超平面的位置.这就自然而然地启发我们从子抽样的角度来解决支持向量机的计算量问题.本章中,针对线性不可分的支持向量机我们提出了一种新的二元分类器,保证尽量在不损失太多估计精度的前提下尽可能多的减少计算复杂度.受回归中的杠杆得分抽样和矩阵逼近问题的启发,该方法旨在通过选择具有较大信息量的样本子集去减少训练数据的样本量大小以实现高效计算.在一般化的子抽样框架下,我们对支持向量机提出了一种新的观点,推导出分类超平面参数的渐近正态性,然后通过最小化渐近方差来推导抽样概率分布以达到某种最优标准.理论难点在于我们同时考虑了样本总体本身和抽样过程所带来的双重随机性,这使得该方法区别于大部分现有的最优子抽样的方法.本章设计了一个两步算法,包括一步最优抽样概率的估计和一步子抽样步骤来构建分类器,这为快速有效的优化并实施该方法提供了解决方案.在随机模拟中,我们从估计、预测和计算三个角度分别展示了其良好表现.该方法不仅计算速度快存储少,而且识别出的分离超平面接近在全样本上训练的支持向量机.同时,该方法的预测性能与其他流行的分类器相比具有较强的竞争力.第四章在高维数据中提出了一种新的误差可控且与模型无关的变量选择方法.随着科学技术的快速发展,各种类型的高维数据频繁出现在基因、金融、航天等诸多领域.充分降维是一种从高维数据中提取相关有用信息且不损失原始数据信息的强大技术,但现有方法所得到降维子空间通常是与所有的原始变量有关.当变量维数非常大时,导致模型可解释性大打折扣.虽然研究者已经开发了很多适用于各式各样复杂结构高维数据的变量选择方法,但这些方法只是能提供一种变量选择的方法,并没有度量选择的不确定性从而不能反映所选出的变量子集中到底有多少变量是被错误选择到的.因此,如何从高维数据中识别重要变量并其控制错误发现率(false discovery rate)便成为一个很重要的统计问题.本章中,我们在充分降维的框架下,通过数据分割(datasplitting)的手段分别在低维数据和高维数据中提出一种误差可控且与模型无关(model-free)的变量选择方法.该方法首先是通过一个响应变换函数把一般的模型转为求解最小二乘估计问题.然后通过构造一系列边际对称的统计量和一个数据驱动(data-driven)的临界值,来实现变量选择中整体的错误发现率的控制.众所周知,在高维情况下统计量的渐近分布一般很难获得甚至是不存在的.得益于数据分割所带来的统计量的对称性,使得我们的方法区别于大部分现有的变量选择方法,既不需要近似统计量的渐近分布,同时也能够只通过数据驱动的临界值控制住错误发现率.在一些较弱的条件下,我们证明了该方法能精确控制有限样本下的错误发现率同时也能实现大样本下的错误率控制.通过数值模拟和高维疾病基因识别的实际例子,展示了该方法相较于其他方法以较高的检验效率来更快更准确的控制错误发生率.在第五章中,对全文的研究内容进行总结,并对未来工作提出了一些可能的设想和规划.本文所关注的问题只是众多前沿统计问题中一个很小的领域,但我们在大规模数据集上基于最优抽样的检验和分类方法具有很强的拓展性,理论上只要所关注的问题可进行子抽样,这些方法就可做进一步推广以节约资源,但具体问题还需深入探讨.高维数据中误差可控的数据驱动变量选择方法也可推广至许多其他问题并做深一步的研究,如因子模型、低秩矩阵估计等领域.
其他文献
高质量发展背景下,探究畜牧业生产布局与资源环境承载力的时空耦合关系是破解畜牧业资源环境约束的关键。以肉蛋奶蛋白当量度量畜牧业生产布局,构建涵盖资源供给、环境消纳、社会支持三大系统的畜牧业资源环境承载力评价体系,分别采用状态空间模型、耦合协调指数测算全国省域畜牧业资源环境承载力及其与畜牧业布局的时空耦合协调关系,并采用GWR模型分析耦合协调关系的驱动因素及空间异质性特征。结果表明:(1)全国畜牧业资
在Finsler几何中,有两类重要的流形,分别是Berwald流形和Landsberg流形.根据定义,Berwald流形一定是Landsberg流形.但是自从L.Berwald引入这些概念以来,人们始终没有找到非Berwald型的Landsberg流形.这成为了Finsler几何中一个自然而长期存在的开放问题:是否存在非Berwald型的Landsberg度量?2005年,D.Bao建议将非Ber
钙(Calcium,Ca)元素是蛋鸡产蛋周期的关键营养素之一,锌(Zinc,Zn)元素则是蛋鸡机体内生理代谢过程必需的微量元素之一。Ca和Zn元素均可通过蛋鸡体内的一系列代谢和生理过程影响蛋鸡的骨骼健康与蛋壳品质。本论文以蛋鸡为试验对象,研究钙或锌的日动态饲喂(每天上午和下午分别饲喂含不同水平Ca和Zn的饲粮,但每天饲喂的饲粮总Ca和Zn水平保持不变)对产蛋鸡生产性能和蛋品质的影响,同时探讨其对血
“食臭”自古有之,虽然其气味不甚友好,但因独特的风味、浓厚的地域特色和深厚的文化底蕴,彰显着其存在的价值。长沙臭豆腐是地方特色风味小吃代表之一,其特征风味源于植物原料为主的发酵卤水。卤水制作目前多沿用传统工艺发酵而成,但因发酵微生物不明确、风味形成机制不清晰,工艺无法定性和定量,导致产品质量不稳定。本课题针对卤水制作中技术“瓶颈”问题,在研究长沙臭豆腐植物源卤水特征风味物质的基础上,以冬笋、香菇、
近几十年来,均值回归过程由于具有周期性的特点,被广泛应用到金融、经济、物理等领域中来刻画季节性、周期性的现象,如经典的OU过程(Ornstein–Uhlenbeck process),最早是在物理学中用于计算在摩擦影响下的大质量布朗粒子速度的一个模型。由于OU过程具有平稳、高斯、马尔可夫性和均值回归的特点,在运筹管理、金融以及随机分析理论中被广泛应用。由于其刻画利率、商品期货、库存等恒正的事物,需
模型选择是统计学重要的研究方向之一,并在计量经济学,金融学等领域有着重要的应用.为了避免模型选择过程的不确定性,以及存在选择到很差模型的风险,学者们提出了模型平均或预测组合的方法.由于模型平均估计是对所有候选模型的估计进行加权平均,故模型平均估计具有更加稳健的优点.普通最小二乘估计(Ordinary Least Squares,OLS)是一种常用的估计方法.尽管OLS是在所有无偏估计中方差最小的估
柑橘大实蝇(Bactrocera minax)和柑橘木虱(Asian citrus psyllid,ACP)均是危害柑橘产业健康发展的重要害虫,其中柑橘大实蝇的宿主具有专一性,仅在柑橘属果实产卵,导致果实腐烂和提前落果,严重影响柑橘果实品质和产量;而柑橘木虱是传播柑橘黄龙病(huanglongbing,HLB)的重要昆虫媒介,宿主为柑橘属及近源属植物,且主要在幼嫩的叶片上产卵,因此,研究柑橘大实蝇
近年来,芥菜的植物化学成分及其功能作用研究引起了全球科学界的高度关注,特别是芥菜中硫代葡萄糖苷(Glucosinolates,GLS)的抗癌、抗炎、抗氧化等生物活性。华容大叶芥菜是我省的优选品种,年种植面积超50万亩,但其化学成分及其功能作用研究尚无报道,制约了其高值化利用。本论文以华容大叶芥菜为原料,采用HPLC-Q-TOF-MS等技术对新鲜和发酵芥菜及其乙醇提取物中的化学成分进行了研究,并以新
Ⅱ型糖尿病(Type 2 diabetes mellitus,T2DM)是一种代谢性疾病,特征是持续的高血糖。机体持续高血糖会加重患者病情,进而演变成糖尿病并发症,对人体健康和生活质量造成严重的损害。越来越多的研究表明,人参皂苷具有降低血糖,改善T2DM的作用,且几乎无毒副作用。但不同的人参皂苷对T2DM的作用机制尚不清楚。本课题首先通过从人参总皂苷中经提取、转化、分离等过程得到高纯度的人参皂苷R
扬子鳃蛭(Ozobranchus jantseanus Oka,1912)是一种寄生于乌龟(Mauremys reevesii)颈部及四肢皱褶区的淡水吸血蛭类,仅我国和日本有该寄生虫的分布报道。2014年日本学者首次报道将扬子鳃蛭直接投入液氮冷冻24h后存活率可达到100%,是目前已知的未经任何预处理即能存活于极低温、体积最大的多细胞动物。但其耐超低温的机制未见任何相关报道。本文对扬子鳃蛭的耐低温