论文部分内容阅读
定量性状位点的区间定位是生物统计中的常见问题。其中带交互效应的定量性状位点的定位问题尤其突出。其特点是样本量不大,位点数目较多,真实的定量性状位点的个数较少。此问题的统计本质为模型选择问题。
前人提出使用一般向前法和mBIC(modified Bayesian Information Criteria)准则进行变量选择。本文对此问题的统计方法加以改进。首先引入一种基于L1惩罚的广义线性模型的参数估计的路径算法代替一般向前法,此算法基于一个L1范式,其实质是一个迭代算法。它利用广义线性模型不断的进行预测-修正步骤的迭代,直至结果稳定。
传统的BIC准则在应用于模型选择问题时往往倾向于多选。我们介绍一个扩展的BIC--eBIC来代替传统的BIC准则。eBIC在传统的BIC中加入了一个新的惩罚项,使得此选择标准倾向于少选,这对于我们研究的区间定位问题尤为有益。并且eBIC的相合的充分条件和可识别条件都很弱。
同时本文借鉴前人经验,使用基于因变量的秩的统计方法。
本文先从理论上介绍系数估计法和eBIC准则的定义和优良性质,再进行模拟实验,说明在样本量不大的情形下,相对于备择方法,新的统计方法使得指标统计量明显变好。
此外,对于衡量区间选择的好坏的指标统计量。除去常用的FDR(False Discover Rate),本文同时使用另一统计量PSR(Positive Selection Ratio)。并对这两个统计量在不同的方法下的模拟结果进行讨论。