论文部分内容阅读
在日常生活中,经常会遇到这样一类数据:同一个体或者受试单元在不同时间观测若干次,即得到同一个体不同时刻的观测,这类数据称为纵向数据.对此类数据进行处理时可以对其建立纵向数据模型利用回归分析的方法去处理问题,进而找出影响因变量的主要因素. 采用纵向数据模型去处理实际问题时,自变量的选择是首先要解决的重要问题.通常,在分析纵向数据模型时,人们根据问题本身的专业理论及有关经验常常把各种与因变量有关的自变量引进模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量也选入模型中.这样一来,不但计算量大,而且估计和预测的精度也会下降.此外,在一些情况下,某些自变量的观测数据获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,但不加选择都引到模型中,势必造成观测数据收集和模型应用费用不必要的加大。因此,在纵向数据模型分析时,对进入模型的自变量作精心选择是十分必要的。 本文主要工作是利用Tibshirani(1996)提出Lasso(least absolute shrinkage and selectionoperator)方法将纵向数据模型系数进行压缩并且使某些系数变为0,再利用AIC或BIC准则将为0的系数截去,从而来确定模型的阶数,进而达到变量选择的目的.本文还利用此成果对影响蝙蝠活动的因素进行了分析.