大数据下基于体积抽样的异常点诊断及估计问题

来源 :数理统计与管理 | 被引量 : 0次 | 上传用户:yuxia21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处理大规模数据集时,抽样是一种很受欢迎的有效方法.体积抽样作为一种联合抽样的方法,它是按照与矩阵平方的行列式成比例进行抽样.该方法在线性回归模型背景下能得到参数的无偏估计.然而也容易受到异常点的影响,本文感兴趣的是体积抽样受异常点影响的程度.基于数据删除模型和均值漂移模型构建统计量进行异常点诊断,结果发现体积抽样方法在某些情况下极易受异常点影响.但是在给定损失的条件下,比独立同分布抽样所需的子样本量更小,在此基础上,提出样本量的自适应选择方法.作为体积抽样的扩展,杠杆值体积抽样同样可以得到普通最小二乘线性模型参数的无偏估计,一个有趣的发现是使用杠杆值体积抽样,等权最小二乘估计结果比非等权最小二乘估计效果好.
其他文献
近年来,以增强现实技术和体感交互技术为基础的虚拟试衣系统的研究得到了广泛关注,虚拟试衣相较于传统试衣的优势在于其方便快捷的交互试衣模式,给用户带来了全新的购物体验,
从写生中得到最自然最本质的东西。《艺术沙龙):面对让你激动的场景和人物,你习惯于选择拍照还是写生?钱小平:我选择写生。《艺术沙龙》:你想要从写生中得到什么?钱小平:我想
Rad9基因编码一种进化上高度保守的细胞周期监控点调控蛋白,其参与到多种DNA损伤的应激反应。已有的研究表明,Rad9基因参与DNA双链断裂的同源重组修复,碱基切除修复以及DNA错配
在高等植物中,捕光色素蛋白复合体(LHCⅡ、LHCⅠ)是定位于叶绿体类囊体膜上的一类多亚基复合物,主要承担吸收光能,并且将吸收到的能量传递到反应中心引起一系列光化学反应、光保
随着第三代移动通信技术的发展,人们对数据传输业务的带宽和速率的要求也日益增加,而频谱资源的有限性决定了未来的移动通信必须采用提高频谱效率的方式来支持高速率数据和多媒
Tobit回归模型在计量经济学研究中受到广泛地关注.本文对Tobit回归模型的参数估计、假设检验和变量选择等问题进行了文献综述.其次,对于参数维度随样本量增加的Tobit模型,我
近年来,传感器在朝着灵敏、精巧、适应性强和智能化、网络化的方向发展。在这一过程中,光纤传感器作为传感器家族的新成员,由于其优越的性能而倍受青睐。在各种光纤传感器中
对造血干细胞发生机制的研究有助于了解人类白血病的发病机理,从而找出更为有效的治疗方案。本课题用斑马鱼作为实验模型,成功构建了可稳定遗传的Tg(runx1:en:GFP)转基因斑马鱼
作为可再生能源的风能资源以其蕴量巨大,分布广泛,没有污染等优势而在各国发展迅速,同时风能作为一种可再生的清洁能源,具有巨大的商业潜力和环保效益。加快开发利用风能已成为全
谷物的胚乳是储藏淀粉、蛋白、和脂类的器官,其中淀粉含量多达85%以上,是成熟种子的主要部分以及人类与牲畜的重要食物。胚乳的发育和淀粉累积依赖于叶的糖分供应,而叶的糖供应受