论文部分内容阅读
在众多的IRT参数估计算法中,马尔可夫链蒙特卡罗(MCMC)算法因其强大的计算能力和对复杂模型的兼容性成为一种普遍的估计方法。虽然吉布斯抽样法(Gibbs Sampler)是MCMC体系下的主流抽样方法,但由于它在探索后验参数空间方面效率低下,往往导致估计时间过长(Neal, 1993)。为了解决这一问题,Hoffman和Gelman(2014)在哈密尔蒙特卡罗(HMC)的基础上提出了No-U-Turn Sampler(NUTS;Neal,2011)算法,该方法在探索后验参数空间上有强大搜索能力和快速收敛速度(Gelman, Carlin,Stern,&Rubin, 2014)。随后,Carpenter等(2017)使用NUTS作为默认算法,开发了一个新的通用贝叶斯程序Stan。理论上NUTS的收敛速度明显快于Gibbs;然而,特别是对于IRT模型来说,还没有研究表明它们在实际效果上有多大的差异。因此,本研究旨在进一步分析Stan和OpenBUGS(基于Gibbs抽样法)这两个通用贝叶斯软件之间的差异,并通过四个真实的数据样本来比较他们的点估计、估计误差、收敛速度和估计时间。这些例子包括四参数正态肩形曲线模型(4-parameter Normal Ogive Model, 4PNOM)、多维2参数logistic模型(M2PLM),以及广义分步计分模型(GPCM)和广义多级展开模型(GGUM)。由于字数的限制和结果的相似性,此处仅以4PNOM的结果进行论述。本研究将4PNOM应用于Culpepper(2016)的数据集,该数据集来源于2005-2006年学龄儿童健康行为研究(HBSC;Iannotti,2005),包括7491名青少年对包含10个项目的欺负行为问卷的作答。以此为基础,本研究将Stan(向量化代码)与Stan(原始代码)和OpenBUGS,每个软件执行5条马尔科夫链,每条链长为10000,截取后5000次取均值进行估计。结果表明:(1)几种贝叶斯估计软件的点估计和估计误差非常相似;(2) Stan只需要大约500次迭代就可以收敛,但是OpenBUGS需要大约4500次迭代,fourPNO需要大约25000次迭代。这一发现与最近的其他研究一致,均表明Stan对于IRT模型具有特别强大的计算效率,其收敛速度明显快于OpenBUGS和fourPNO;(3)使用矢量化代码的Stan仅需0.83小时就能收敛,其估计耗时明显少于其他方式(OpenBUGS需要15.12小时),甚至比专门用于估计4PNOM的R包fourPNO(1.65小时)还要快。通过这些例子,本研究建议研究人员使用Stan来进行IRT模型的参数估计,以提高估计效率,节约研究时间。