论文部分内容阅读
随机化的临床试验是对药物等治疗手段进行的系统性研究,目的是提供有关药物疗效、受益人群甚至有害人群等信息。对某种药物表现出同一类治疗效果的受试者称为一个亚群,从临床试验数据中寻找对药物疗效表现出异质性的亚群的过程称为亚群分析或亚群识别。借助于模式识别和机器学习技术,众多学者在亚群识别方法的研究上已取得了具有不同优势的成果,但目前的亚群识别方法对受试者特征与受试者评估(outcome)之间的关联依赖很严重,而且不能适应可扩展多分类亚群识别的需求。针对这一现状,本文提出了一种基于马尔可夫链蒙特卡洛(MCMC)的亚群识别方法。本文首先详述了亚群分析问题的来源、回顾亚群识别问题的发展历程,并介绍临床实验、亚群异质性等非计算机相关的概念;其次根据临床试验数据特征设计了一套完善的、可复现的、统计特征可控的临床实验数据仿真方法;接着详细说明了基于MCMC的亚群识别方法;然后由数据仿真实验得到一组统计特征互异的数据,评估了数据的统计特征,并在该数据集上评估了本文所提出的亚群识别方法的效果;最后成功开发了基于R的扩展包shiny的浏览器端的亚群识别演示工具平台。本文的创新成果主要有两点:(1)生成仿真临床试验数据。亚群识别方法的输入样本规模过小,亚群分割可能会由于亚群内样本数量过少、样本间差异太小等因素过早停止分割,导致较高的Ⅰ型错误率。而且由于临床试验数据没有真实亚群标记,所以很难对不同亚群识别方法的表现进行准确评估。我们基于多元正态分布,设计了一套临床试验数据的仿真方法。使用该方法可以得到一组受试者数量可控、亚群数量可控、亚群类别比例可控、亚群内干预组、对照组的outcome水平差异可控且带有真实亚群标记(mark_ori)的仿真临床试验数据。可通过衡量mark_ori和亚群识别算法预测结果的一致性,来评估亚群识别算法的有效性。(2)基于MCMC的亚群识别方法设计。本文提出的基于MCMC的亚群识别方法,将一组亚群的类别指派作为一种系统状态,由等概率状态转移矩阵在不同系统状态间转移,并利用亚群状态评估函数控制转移的方向,从而使系统状态收敛于平稳分布即全局最优亚群状态。该方法在保持了与经典方法一致的平均识别效果下:1.相比于依赖贪心选择性质的基于树结构的亚群识别,本方法具有全局优化能力;2.由于马尔科夫链的最终平稳状态的存在,本文的方法也会自动避免过度拟合;3.本文中的方法如果要应对更多的亚群类型,只需要修改亚群状态评估函数即可,可以轻松实现应用场景扩展。