基于广义线性混合模型的参数估计

来源 :锦绣·上旬刊 | 被引量 : 0次 | 上传用户:Oom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文主要讨论了广义线性混合模型(即GLMM)模型的两种不同的参数估计方法,基于惩罚拟似然参数估计方法和MCMC贝叶斯参数估计方法。本文考虑借助开源软件R对癫痫病数据集epil进行统计推断,并与其他模型和参数估计方法进行比较。
  关键词:广义线性混合模型;方差分量;参数估计;glmmPQL;MCMCglmm
  Abstract: This paper mainly discusses two different parameter estimation methods of GLMM model, one is the penalty quasi likelihood parameter estimation method and the other is the MCMC parameter estimation method based on Bayesian, and this paper considers the use of open source software R to estimate the parameters of a specific data set (epil) Compared with other models and parameter estimation methods, it is concluded that the application of GLMM is very extensive and necessary.
  Key Words:GLMM;variance component;parameter estimation;glmmPQL;MCMCglmm
  在对实际问题建模时,当我们感兴趣的变量是一个正态分布随机变量时,通常考虑使用线性模型(LM),要求响应变量满足正态性和独立性,而实际数据会违背相互独立的假设,这些数据之间往往存在某种相关结构,由此发展了线性混合模型(LMM),在LMM中,放松了独立性要求,考虑响应变量之间的相关性。在后续的研究中发现除了满足正态分布的随机变量之外,还存在很多非正态分布,如泊松分布,二项分布等。對于这类分布,考虑对其均值进行建模,发展成广义线性模型(GLM),相比LM,GLM放松了要求响应变量的正态性,但是仍然需要满足独立性,但实际中数据之间的相关性不可忽略。忽略相关性将会导致偏差或者得出错误的结论。为了体现出数据之间的相关性,在广义线性模型的连接函数上加上了一个随机变量,也就是本文所研究的广义线性混合模型(GLMM)[3]。理论上,广义线性混合模型是广义线性模型和线性模型的结合,同时它也是线性混合模型的拓展。广义线性混合模型适合用来模拟存在相关性的区组效应的数据或纵向数据,此时不再要求响应变量满足正态性和独立性,模型设定更加灵活,更能反映出响应变量之间的相关性,这是广义线性混合模型的一个显著优点。
  对于GLMM的参数估计,以往很多学者提出各种方法。针对GLM的参数估计首先构造似然函数,对随机效应进行处理,无论是对条件似然函数的积分处理还是对边际似然函数的极大似然估计[2]的过程中都存在很大的困难,尤其是在对随机效应的积分处理往往伴随各种高维积分。后来的研究中,有学者提出拟似然(quasi—likelihood)函数[1],详细参考McCullagh[3],拟似然的提出这类模型提供了推断的基础,后来的学者提出了基于惩罚你似然函数的参数估计方法。对于多数非正态模型,使用Monte-Carlo积分方法[2]。除此之外,还可以在先验分布[4]中使用重要性抽样或者Gibbs抽样避免数值积分,而对于极大似然估计方法最常用的是EM算法和MCEM算法。
  参数估计方法比较丰富,但目前针对广义线性模型的参数估计方法主要是基于拟似然或者惩罚拟似然角度出发的极大似然估计,而从贝叶斯后验角度出发进行的参数估计目前还并不多,一般进行贝叶斯参数估计借助于WinBUGS或OpenBUGS等软件进行,遇到较大数据集的情况时运行速度较慢,本文借助于R软件中的MCMCglmm包中的MCMCglmm函数[5]可以很好的避免运行速度过慢的缺陷,同时可以达到一个很好的参数估计的效果。本文主要针对R中自带的数据集epil进行惩罚拟似然参数估计和马尔可夫蒙特卡洛参数估计两种估计方法的结果比较。
  1 模型介绍和分析
  广义线性混合模型(GLMM)是广义线性模型(GLM)的拓展,GLM需要包含三个部分: (1)响应变量的分布 ;(2)线性预测器 ;(3)连接函数 。模型可表示为:
  其中, 为Y的分布函数, 为Y的期望, 是单调可导的连接函数, 为线性预测器。而对广义线性模型中参数 进行参数估计时比较常用的一种方法是迭代加权最小二乘(IWLS)算法,具体算法的细节可以参考McCullagh 和 Nelder(1978)的工作。
  而广义线性混合模型(GLMM)与广义线性模型相似,需要以下四个组成部分,除了GLM的三部分还需要添加一个随机效应: ,其中 为 的方差;更具体的说: ,其中 ,且同时有 。令 ,则可以得到样本的似然函数:
  其中 表示给定随机项 时Y的条件概率密度函数, 为b的概率密度函数,感兴趣的是模型中参数 的估计,即估计出固定效应 和方差分量 。
  2 数据集介绍和描述性分析
  本文所考虑使用的数据集为R中MASS包中的癫痫病数据集epil,由Thall和Vail(1990)年给出的59个癫痫病患者的2周内的发病次数,患者被随机分配到两个不同的实验组,一个组进行新药治疗(Trt=1),一个组进行对照的安慰剂治疗(Trt=0),具体介绍可在R中进行查看。
  对数据集epil进行描述性分析,新药治疗组的样本相关性比安慰剂组的样本相关性更大,同时从药物治疗组和安慰剂对照组不同时期发病次数箱线图(图1)无法断定癫痫犯病次数随时期的变化产生而产生明显的变化,但是可以明显地看出新药治疗组的发病次数比安慰剂对照组的发病次数水平更低。   3 参数估计
  接下来考虑两种不同的参数估计方法来对广义线性混合模型(GLMM)的参数进行估计,基于惩罚拟似然方法(PQL)的极大似然估计方法,具体的细节可参考干晓蓉(2007)的论文工作[6];基于贝叶斯后验分布出发的参数估计方法,具体的细节可以参考Jarrod Hadfield的工作。
  3.1 PQL参数估计法
  拟似然方法并不要求响应变量是某一个具体已知的分布,只需知道响应变量的均值和方差,在大样本情形下可近似为正态分布。然而为了减少方差估计的无偏性,采用添加惩罚项的方法来提高估计的精度。假设已知响应变量 的条件分布的均值和方差为:
  ,
  连接函数 的逆函数为 ,即: ,其中 ,有 , ,有 ,其中I为对角阵,对角线元素为单位阵, 。得到拟似然函数:
  借助于拉普拉斯近似,进一步可以得到惩罚拟似然函数为:
  针对上式进行求导可以得到方程并进一步得到参数的极大似然估計量。接下来考虑在癫痫病数据集上进行实例应用。我们考虑在epil数据集上应用GLMM模型通过PQL方法来估计参数,首先考虑建立模型:
  利用R软件中的glmmPQL进行参数估计,考虑两种情况,将period的四个阶段其为数值型变量和因子型变量。
  3.2 贝叶斯参数估计
  贝叶斯统计推断是从后验分布出发,通常对未知参数有一定的先验信息或无信息先验,当给定先验先验信息,可求后验分布,进而完成贝叶斯参数计。
  参考Jarrod Hadfield的工作,考虑第i个数据的概率为: ,假设 服从泊松分布,则有:
  其中 为泊松分布规范参数。解释变量之间的线性有下列线性关系:
  其中X为与固定效应有关的设计矩阵,Z是与随机效应有关的设计矩阵,e为残差,假设 来自多元正态分布,满足:
  利用MCMC抽样方法我们可以得到:
  按照 更新参数 , ,其中C为固定模型的系数矩阵,满足:
  其中 ,B为固定效应的先验方差, 和 为从多元正态分布中随机抽取的样本:
  且 , 即为从下列分布中抽样的样本: 。
  可借助Jarrod Hadfield[5]编写的MCMCglmm包中的MCMCglmm函数实现广义线性混合模型的参数估计,由于对癫痫病数据集缺乏先验信息,故不设置先验信息,或者设置一个无信息先验信息。利用MCMCglmm函数对数据集进行拟合,考虑每10个间隔进行一次抽样,共抽取13000个样本,除去预烧期的3000个抽样样本,进行贝叶斯参数估计,同样考虑period的两种情形,模型的DIC值分别为1153.947和1158.283,两种情形下随机效应的参数估计结果为:0.252和0.249.
  根据表1和表2中的glmmPQL参数估计结果得出结论:新药的回归系数是显著的,年龄并不显著,基础发病次数是显著的,但基础发病次数与新药的交叉作用不显著,同时从整体上看阶段是一个显著的回归项,具体到四个阶段的每一阶段,只有第四阶段的作用是显著的,其它的回归项的显著性和估计结果基本相似。同时两种不同情形下的随机效应估计为0.443和0.444,两者相差不大。这与前面的数据描述性分析是相互对照的。
  表1和表2中同样给出了贝叶斯框架下的MCMCglmm参数估计结果,当将period视为数值型变量时,此时随机效应的估计值为 :0.252,可信区间为(0.129,0.402)。当将period视为因子型变量,此时随机效应的估计值为 :0.250,可信区间为(0.131,0.409)。
  看出无论是将period看成数值型变量还是因子型变量时,各个时期都不显著,这与PQL方法下的结果是不同的。同时在MCMCglmm包中还可以给出随机效应的迭代轨迹图像以及随机效应的概率密度函数图像,可以通过迭代轨迹图判断是否收敛以及基于后验分布的统计推断是否合理。
  4 结论
  文章主要考虑了两种广义线性混合模型的参数估计方法,PQL方法下的广义线性模型方差分量比MCMC方法下的要略微偏大一些,但两种方法下大部分的回归结果是相似的,这也再次证明了这两种方法的参数估计结果是比较准确的,同时第二种方法下的贝叶斯参数估计方法的效率较高,运行时间比利用WinBUGS或OpenBUGS等软件的效率要高很多,这也是这个方法的一个显著的优势。同时本文也将一般的参数估计方法上拓宽了,将贝叶斯的参数估计方法应用过来,且参数估计的结果表明二者估计的结果是相似且准确的。
  参考文献
  [1] 曹红艳,刘桂芬,曾平,等.预测性伪似然法和贝叶斯法广义线性混合模型估计[J].中国药物与临床,2008,8(011):861-863.
  [2] 陈永成,STEPHEN W.RAUDENBUSH.用蒙特卡罗方法求取广义线性混合模型之最大似然估计:应用于求取乳癌死亡率之小区域估计[J].应用概率统计,2006,22(1):69-80.
  [3] McCulloch CE,Searle SR.Generalized,linear and mixed models.New York:Wiley,2001.
  [4] Gelman A.Prior distribution for variance parameters in hierar-
  chical models. Bayesian Analysis, 2006, 1(3):515-534.
  [5] Hadfield J D . MCMC Methods for Multi-Response Generalized Linear Mixed Models: The MCMCglmm R Package[J]. Journal of Statistical Software, 2010, 33(02):1-22.
  [6] 干晓蓉.广义线性混合模型[J].昆明理工大学学报(理工版),2007,32(4):107-113.
其他文献
摘要:在边塞诗中对战争主题的描写是必不可少。唐朝昌盛时期的诗人在传唱英雄、赞颂战争的同时,也毫不避讳的对战争表明了憎恶甚至愤恨的态度,揭示了因为战争随之而来的各种交织冲突。王维在他的的边塞诗中同样存在这两种相互矛盾的态度,这样的二元对立将唐朝昌盛时期的诗人分为了厌战派与主战派,“老将”与“少年”之间的区别就体现了诗人在诗歌人物形象上的对比。诗人对国家事物的改变的一种思考是产生主战派与厌战派二元对立
期刊
摘要:自改革开放以来,我国高校的体育学科已发生较大变化。体育教学改变了传统的教学思路,引进了先进的体育思想,如体育俱乐部教学就是目前大学体育教学应用较广泛的模式之一,但是在试行过程中也遇到了一些问题。本文就具体对大学体育俱乐部教学模式的困境与出路展开探讨。  关键词:大学体育;体育教学;困境与出路  俱乐部一词最早起源于欧美国家,俱乐部教学是指学生在进行体育知识学习时,使用组织的形式进行学习。这种
期刊
Abstract: This paper makes a study on the types of deadlocks, and divides them into starting phase deadlock, middle phase deadlock and closing phase deadlock in logic order. Furthermore, the cause and
期刊
摘要:当前社会,我国的物联网技术在智能建筑领域中的应用和研发已经进入飞速发展的阶段,针对居民的不同需求也衍生出了不同的发展方向与功能拓展的相应升级。为了进一步的提升智能建筑中物联网技术的应用价值与水平,本文着重分析了现行条件下物联网技术在智能建筑中相关应用的组成和物联网技术在智能建筑中主要的应用范围,以期智能建筑能够更好的借助物联网技术给人们提供更加优秀的智能化服务。  关键词:物联网技术;智能建
期刊
摘要:在“四个全面”理论中就包括了“全面从严治党”,为了保持、传承我党传统与宝贵经验,只有做到全面从严治党,才能切实巩固党的执政地位,确保中国共产党始终都能成为中国特色社会主义事业的坚强领导与发展核心。本文中浅谈了理论学习视角下强化全面从严治党的4点做法。  关键词:全面从严治党;理论学习视角;理论素养;纵深发展;纯洁性  前面从严治党的根本在于加强理论学习,它旨在强化全面从严治党理论根基,在这里
期刊
摘要:水利水电工程是整个社会经济发展的过程中重要的一部分,在社会经济发展的过程中,水利水电工程作为我国重要的基础设施建设,在实际发展的过程中发挥重要的作用,由于施工条件比较复杂,在实际施工的过程中,想要保障整个水利水电工程能够顺利进行,更好的完成整个工程的质量,在实际施工的过程中,应该进行合理有效的检测,检测工作是十分重要的,在进行检测的过程中,质量检测的科学化和专业化是保障整个检测质量的重点,在
期刊
摘要:从实际的视角做出分析,自二十世纪以来,在国内传统工艺美术就作为一门课程在教育体系之中存在着,随着其长久的发展,工业美术教育受到的注重程度也愈来愈高,如何更好地完成这项教育活动,也成为了教师极其重视的内容。基于此,本文就从工业美术教育的当代价值出发,对其发展方向做出探讨,以供参考。  关键词:工艺美术教育;价值;方向  一、引言  一直以来,工艺美术都是传统物质与精神文化的关键组成部分之一,是
期刊
摘要:流行唱法也称通俗唱法,顾名思义,其歌词的通俗易懂,旋律朗朗上口,讓受众面颇为广泛。深受广大群众的喜爱。文章结合作者的教学经验和个人见解,对流行唱法演唱前所需的准备工作进行简单的讲解和分析。  关键词:流行唱法;演唱;歌曲处理  一、流行唱法的缘起  流行音乐一词是由英语popular music翻译而来。起源于19世纪美国工业文明。多数的流行歌曲都来源于黑人音乐。在我国它与西洋唱法一道都属于
期刊
摘要:校园文化是高校建设和发展的重要组成部分。也是提高学校形象和整体认知度的手段之一。艺术专业是整个校园文化活动的引领专业,应该发挥本专业的优势和力量,举办有专业和校园特色的文化活动。借助师资力量,凭借新媒体平台,建设和传播校园文化。通过校园文化的传播,丰富了学生的课余生活,提升了师生的高雅文化的鉴赏能力,  关键词:校园文化; 专业优势; 艺术专业  作为艺术类专业的学生,其担负着促进文艺发展的
期刊
摘要:本文针对《推销实务》这门课程的实用性、实践性等特点,分析了情境教学法在该门课程中的应用和如何进行教学设计,为今后的教学改革提供一定的思路。  关键词:情境教学;推销实务;运用  一、情境教学的含义及实质  情境教学法是指在教学过程中,教师有目的地引入或创设具有一定情绪色彩的、以形象为主体的生动具体的场景,以引起学生一定的态度体验,从而帮助学生理解教材,并使学生的心理机能得到发展的教学方法。 
期刊