半参数潜变量模型及其在缺失数据情形下的贝叶斯推断研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:zjfjh2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学研究和实践中,混合类型的多元响应变量是相对比较常见的问题。对于这类型的数据,若直接采用分别分析的方法对不同类型的响应变量分开进行分析,那么可能得到效率较低的估计。为了提高估计效率,一般对混合响应变量进行联合建模,从而将混合类型的多元响应变量之间的相互关系考虑在内。因此,为了对混合响应变量进行联合分析,本文使用潜变量模型来构建混合响应变量的联合分布。潜变量模型对混合响应变量进行联合分析的作用机制是:设定共同的潜变量,并假定不同类型的响应变量在给定该潜变量的情况下相互独立,从而构造混合响应变量的联合模型。基本的潜变量模型一般假定潜变量服从正态分布,但这一假定可能并不符合实际,存在一定的局限性。因此本文的第一个主要贡献是打破潜变量的正态性假定,假设潜变量服从狄利克雷过程(Dirichelet Process,DP),从而构建基于DP先验的半参数潜变量模型。这是本文的第一个创新点。与基于正态分布的潜变量模型相比,基于DP先验的半参数潜变量模型由于其非参数性质而具有更高的灵活性和适用性。我们通过数值模拟验证了基于DP分布的半参数潜变量模型的有效性及优越性。本文的第二个创新点在于,在基于DP分布的半参数潜变量模型的基础上,我们进一步考虑了缺失数据的情形。在科学研究中,在许多情况下都会出现缺失数据。比方说在抽样调查中,会由于被访者的无回答而产生缺失数据;在临床试验中,也可能由于被试验者提前退出试验而导致缺失数据。因此,我们着眼于带有缺失数据的混合响应变量问题,以选择模型(Selection Model)框架构建了带有缺失数据的基于DP分布的半参数潜变量模型。在选择模型框架下,除了以基于DP分布的半参数潜变量模型作为响应模型外,还需要额外构建缺失协变量模型和缺失机制模型。同样地,我们也通过数值模拟来验证所构建模型的有效性和准确性。进一步地,在带有缺失数据的混合响应变量的设定下,我们对DP分布进行改进,采用DP混合分布作为潜变量的分布。由于DP分布本质上的离散性,在某些情况下将不适用,比如在要求潜变量服从连续型分布时,使用DP分布将不再合适。为了打破DP分布离散性所带来的局限,我们将DP分布改进为DP混合分布,使之能够适配大部分的连续型分布,从而构造了带有缺失数据的基于DP混合分布的半参数潜变量模型。同样地,为了处理缺失数据,我们也采用选择模型框架进行建模和分析,模型的有效性和准确性也通过数值模拟进行验证。本文所构建的模型的参数估计和模型分析都是在贝叶斯框架中进行的,这是本文的第三个创新点。本文使用贝叶斯框架的原因在于:i)在贝叶斯框架下,复杂的模型能够以分层模型的形式构造出来,本文所构建的半参数潜变量模型的实现也只需要改变潜变量的先验分布,即把潜变量的正态先验改为DP先验或者DP混合先验即可实现;ii)贝叶斯方法能够自然地处理缺失数据,本文所选择的选择模型框架在贝叶斯方法下也比较容易实现;iii)在贝叶斯框架下,参数估计是使用马尔科夫链蒙特卡洛(Markov chain Monte Carlo,MCMC)算法实现的,现有软件和计算技术的发展大大便利了参数的贝叶斯估计。本文在贝叶斯框架下构建了模型,并使用贝叶斯方法进行参数估计,同时还构建了DIC、LPML等模型比较准则用于备选模型的选择。此外,也介绍了贝叶斯框架下的敏感性分析,使得本文的分析结构完整可靠。最后,本文分别以中国综合社会调查(CGSS)和中国健康与营养调查(CHNS)的实际调查数据为例,介绍本文所构建的模型和方法的可行性,为实践提供参考。在CGSS数据中,针对混合连续型和定序型的响应变量构建了基于DP先验的半参数潜变量模型,使用DIC和LPML进行模型选择,使用贝叶斯方法进行参数估计。而在CHNS数据中,进一步考虑了缺失数据的存在,针对混合连续型和二分类型的响应变量构建了带有缺失数据的基于DP先验和DP混合先验的半参数潜变量模型,使用LPML进行潜变量先验分布的选择,使用基于缺失机制模型的DIC准则进行缺失机制模型的选择,并使用贝叶斯方法进行参数估计以及敏感性分析。这两个实际调查数据为本文所构建的模型和方法在实践中的应用提供了参考,具有一定的借鉴意义。
其他文献
当前,我国产业发展内外承压。对外,产业发展面临着同时来自于发达经济体和新兴经济体的双重压力;对内,随着我国支撑粗放型增长方式的环境和条件发生根本性改变,高投入高耗能的产业发展方式亟须得到改变,产业转型升级迫在眉睫。另有一点值得注意的是,今年上半年美国对我国发动贸易战,对我国进出口产生不利影响,特别是对涉及到先进制造业发展的高新技术产业相关技术和产品的进口施加严格限制,从多方面遏制我国产业升级和发展
经典SLAM家族受体广泛表达于各种免疫细胞上,然而,非经典SLAM家族受体SLAMF8和SLAMF9严格地表达于髓系细胞上,并且他们具有一个区别于经典SLAM家族受体的特点就是缺乏胞内信号结构域。SLAMF8和SLAMF9可能存在冗余性,并且它们是否参与调控巨噬细胞的功能目前仍未知。在本研究中,我们的结果显示SLAMF8和SLAMF9共同调控LPS-诱导的且由巨噬细胞介导的肝脏炎症。为了克服SLA
伏尔泰说:生命在于运动。随着现代工业革命的诞生和计算机技术的不断发展,从事脑力工作的人口数不断增加导致由于缺乏体育活动的亚健康人口数也随之上升。越来越多的科学研究发现:运动训练具有防止神经系统性疾病发生和预防老年痴呆症的作用。尽管有许多研究证据表明:运动训练或者体力活动促进海马神经发生和颗粒细胞树突棘可塑性,但是,运动训练是否影响皮层树突棘的可塑性以及是否能够预防精神疾病发生、促进学习记忆还尚不明
食物网研究是了解和解释生态系统结构特征和功能过程的关键内容。湖泊食物网结构和功能受到很多因素影响,如营养盐的富集(富营养化)和生物入侵等,其影响过程包括上行控制和下行控制。然而,外源有机碳可能被湖泊异养生物利用,从而对湖泊的食物网结构和功能产生重要影响。在某些贫营养湖泊中,外源有机碳是支撑湖泊食物网的主要有机碳源。本文利用稳定同位素和脂肪酸标志物技术,以抚仙湖为研究对象,研究了其食物网的结构和有机
胃癌(gastric cancer,GC)早期的及时诊断可有效减少胃癌发病率和降低死亡率。目前胃癌早期诊断的临床方法尚存在主观性强、检验程序繁琐、耗时、易漏诊等缺点。因此,探索一种客观、快速、准确的胃癌早期诊断方法具有重要的临床应用价值和科学研究意义。本文探讨了荧光高光谱成像技术结合机器学习建模应用于胃癌早期诊断的可行性。采集来自中国人民解放军第74集团军医院消化内科和南方医科大学珠江医院消化内科
目的:抗体药物是重要的肿瘤分子靶向药物,运用纳米抗体策略研究新靶点治疗性药物已是抗体药物研发新趋势之一。FGF-2/FGFR作为抗肿瘤治疗的靶点之一,目前尚未有商品化的治疗性FGF-2抗体,FGF-2靶向药物的研发仍有广阔空间。本研究以FGF-2为靶点,免疫羊驼,噬菌体展示技术筛选抗FGF-2纳米抗体,以血管内皮细胞、黑色素瘤细胞、鸡胚尿囊膜、荷瘤小鼠等为模型,旨在开发出在体内外具有抗血管新生及抗
第一部分UHRF1在食管鳞癌中的作用及机制研究背景及目的:食管鳞状细胞癌(Esophageal squamous cell carcinoma,ESCC)约占中国食管癌病例的90%,但由于早期诊断和治疗的方法有限,患者的5年生存率不足10%。泛素样含PHD和环指域1(ubiquitin-like with PHD and ring finger domains 1,UHRF1)在DNA甲基化中起着
菲律宾单方面提起国际仲裁后,受相关国家的参与和影响,中国南海主张面临着外交、法律、舆论三方面的重大挑战。舆论是各方面博弈、矛盾呈现得最为激烈,也是对中国南海主张的国际传播影响最大的一个方面。国际新闻媒体关于“南海仲裁案”的报道,为中国南海主张国际话语在国际传播格局中的媒体、议题、意见领袖等三个关键性要素的特征、规律与内在的关联的全面研究提供了可能和路径。在国际新闻媒体方面,中国、菲律宾的媒体表现显
作为一种文学想象类型文体,科幻小说以科学观念为写作驱动,以科学知识为描写依据,并以在文本中建构起一个合理、可替代的世界为创作追求。自刘慈欣获得雨果奖以来,中国科幻文学便受到了学界的广泛关注。其中,学界对晚清以来科幻文学的研究,主要是以个案文本解读为主考索历史,缺乏从社会变迁的层面探讨其发生背景。其实,中国科幻文学的发生与晚清科幻文学实践存在着紧密的关系。晚清西方文化的大规模引进,不但促使电灯、德律
生命崇拜是仫佬族族精神生活中最重大的主题之一。他们崇生惧死,伤时忧生,认为人生应该及时行乐;他们崇拜生命力,强调生殖繁衍,因此民歌体现出一种壮美的风格。这些都深刻地体现在仫佬族民歌的天文意象、地理意象与人文意象之中。深入挖掘这些意象蕴含的丰富文化传统,归纳整理仫佬族的文化心理和民族性格,具有十分重要的现实意义。本文拟运用神话人类学、文学地理学、民俗学、原型批评、审美人类学、叙事学等理论,结合本人的