论文部分内容阅读
研究背景和目的临床等效性试验(clinical equivalence trials)系针对临床疗效指标而进行的等效性评价试验,其学术思想源于生物等效性试验(bioequivalence trials),采用的是双单侧检验(two one-sided test, TOST)方法。由于双单侧检验与传统的双侧检验和单侧检验均有所不同,其样本量估计的原理和方法亦有所区别。近年来,有众多学者对临床等效性试验的样本量估计方法进行了研究和探讨,但仍有一些需要进一步澄清和完善的问题。近年来十分热门的Bland-Altman一致性评价方法通常采用置信区间的方法进行统计推断,理论上可以证明其本质等同于双单侧检验方法。Bland-Altman一致性评价方法由Altman DG和Bland JM于1983年提出。1986年,Altman DG和Bland JM又进一步改进了该方法,为了改善原来过于主观的图示方法,他们建立了95%一致限(limits of agreement, LOAs)配合Bland-Altman图示法的Bland-Altman一致性评价方法体系。Bland-Altman一致性评价方法在医学界得到了迅速的推广和广泛的认可,而该方法在其他领域也有出色的应用。尽管Bland-Altman方法在医药卫生领域的应用正在逐年增加,但目前对采用Bland-Altman法评价一致性的方法学研究仍不多见,因而导致该评价方法应用不合理的问题相当严重,急需统计学研究者和临床应用者共同来解决,其中关于该方法的样本量估计问题一直未得到很好的解决。由于等效性试验和Bland-Altman一致性评价法皆采用双单侧检验的原理,在假设检验和置信区间的推断方法上有共同点,因此,在样本量估计方面必然存在一定的共性。本研究在前人研究的基础上进一步阐明和澄清等效性试验样本量估计的问题,并借鉴其原理和方法对Bland-Altman一致性评价方法的样本量估计方法进行探讨和分析,为促进两种方法的正确应用提供方法学支持。本研究主要分为五个章节。第一章,以平行组设计的临床等效性试验为例,介绍两组定量资料均数之间疗效等效性评价的假设检验和置信区间的估计方法,并对等效性试验的Ⅰ类错误水平和置信水平的关系进行解析,为下一章的等效性试验的样本量估计方法提供理论支持。第二章,根据等效性试验的统计推断原理和统计分布理论,通过对Ⅱ类错误水平β的分解,探讨以服从正态分布连续性变量为主要指标的等效性试验的样本量估计通用公式;设定不同的参数,用推导出来的公式计算相应的样本量,并采用Monte-Carlo模拟方法验证其正确性;通过实例分析,对等效性试验和非劣效试验(non-inferiority trials)在实际应用中的样本量估计提出建议。第三章,针对单次测量的Bland-Altman一致性评价方法进行介绍,包括统计量计算、图形绘制和参数估计;并对Bland-Altman一致性评价方法的数据行为进行分析,给出判定数据行为的具体方法,及在数据行为不良时的策略;给出了Bland-Altman一致性评价方法的LOAs及其置信区间估计方法,为下一章Bland-Altman一致性评价方法的样本量估计提供理论依据。第四章,根据Bland-Altman方法LOAs的置信区间估计公式,结合统计推断的原理,对相应的样本量计算公式进行理论推导,并借助Monte-Carlo模拟方法对不同参数设定下不同样本量对应的把握度进行正确性的验证,同时将Bland和Atlman提出的样本量估计方法和本章提出的新方法进行Monte-Carlo模拟比较,探讨两种方法的正确性和实用性;通过实际临床数据对本样本量估计方法进行实例说明。第五章,对本研究中的创新之处及其存在的不足进行分析,提出尚需进一步探讨的问题。研究方法首先,根据等效性试验的均数差值的置信区间方法,结合统计推断原理,对样本量计算公式进行推导,具体方法为:由等效性试验的统计推断原理可知,若等效性试验总的Ⅰ类错误概率为α,则其上下两侧的单侧假设检验的Ⅰ类错误概率皆为α,总的Ⅱ类错误水平β可分解为上单侧检验的Ⅱ类错误水平(βU)及下单侧检验的Ⅱ类错误水平(βL)两个部分,通过分解示意图得到两个等式,并推导出两个分解后的Ⅱ类错误水平的具体公式,由于采用了非中心t分布的原理,样本量不能直接由公式反推得到,但可以通过迭代运算的方法得到样本量的大小。为了验证所推导的等效性试验的样本量估计方法的正确性,我们对其进行Monte-Carlo模拟。考虑到实际应用中的各种可能性,模拟时设定不同的β、△/σ和δ/σ取值(△指临床等效性界值,σ指两组总体均数之差),在检验水准α=0.05下,设计两组等样本量,计算不同参数设置下每组的样本量,并逐个进行模拟,获得相应的模拟把握度。对某一具体的样本量的模拟步骤如下:设定μB=0、σ2=1,根据△/σ)-和δ/△分别求得△和μA。按照均数分别为μA、μB,方差均为σ2,产生两组该样本量的正态分布随机数,例如:若△/σ=0.10、δ/△=0.05时,则△=0.10,,μA=-0.05。计算两组随机样本均数之差的90%置信区间,与临床界值△进行比较,如果在[-A,A]范围内,则推断为等效性成立。重复上述步骤10000次,计算得出推断结论为等效的次数,该次数除以10000,即为模拟把握度。根据Bland-Altman一致性评价方法LOAs的置信区间估计公式,结合统计推断原理,对相应的样本量计算公式进行理论推导,具体的推导方法为:由Bland-Altman一致性评价方法的统计推断原理可知,若总的Ⅰ类错误水平为a=0.05,则两单侧的Ⅰ类错误水平也为α=0.05,总Ⅱ类错误水平也可分解为LOAs上限的Ⅱ类错误水平(βU)及LOAs下限的Ⅱ类错误水平(βL)两个部分,通过分解示意图可以得到两个等式,并推导出两个分解后II类错误水平的具体公式。与等效性试验同理,由于采用了非中心t分布的原理,样本量可通过迭代运算的方法得到。为了验证样本量公式的正确性,借助Monte-Carlo模拟方法获得不同参数设置下样本量对应的把握度,具体模拟步骤为:设定I类错误水平α为0.05,总的Ⅱ类错误水平β为0.1和0.2,差值标准限值(δd/σd)为0到0.9(δd指两组总体差值的均数,σd指两组总体差值的标准差),间距为0.1,界值标准限值(△d/σd)为2.0到3.0(△d指临床可接受的一致性界值),间距也为0.1,计算不同参数取值下的样本量,并逐个模拟相应的把握度;按照公式算得不同参数设定下的样本量,根据均数、标准差、样本量产生一组正态分布随机数,计算其95%LOAs的95%置信区间,并与预先设定的临床可接受一致性界值进行比较,如果95%LOAs的95%置信区间在该范围内,则推断为一致性成立;模拟10000次,计算得到一致性推断结论的次数,该次数除以10000即为模拟得到的把握度。Bland曾在其网页上给出了关于Bland-Altman一致性评价方法样本量的估计方法(暂称为B-A样本量方法,sample size of B-A method)。该方法同样是基于1986年发表于Lantet杂志的文献中Bland和Altman给出的关于95%LOAs的95%置信区间的计算公式。为了比较该方法与本文中提出的估计样本量方法(暂称为新的样本量方法,sample size of new method)的区别,通过Monte-Carlo模拟方法对两种方法在不同参数设定下得到的样本量和把握度进行对比,具体模拟步骤为:设定α=0.05,β=0.20,δd=-0.4~0.4,σd=1,△d=2.7,事先规定把握度(100(1-β)%)为80%;产生均数为岛、标准差为σd、样本量为n的一组正态分布随机数,计算差值的95%LOAs的95%置信区间,并与预先确定的临床可接受界值△d进行比较,如果该置信区间在[-△d,△d]范围内,则推断为一致性成立;模拟10000次,计算得出一致性推断的次数,该次数除以10000即为模拟得到的把握度。研究结果对双单侧检验的I类错误和置信水平的分析可知,若总的I类错误水平为α,则上下两侧的单侧假设检验的检验水平也为α,其置信区间估计按双侧100(1-α)置信水平计算。对等效性试验和Bland-Altman一致性评价方法的样本量估计公式进行Monte-Carlo模拟,结果表明,模拟获得的把握度和事先设定的目标把握度非常接近,可证明本文中提出的样本量计算公式是正确的。本文提出的Bland-Altman一致性评价方法样本量计算公式(新的样本量方法,简称新样本量法)和Bland给出的样本量估计公式(B-A样本量估计方法,简称B-A样本量法)的比较模拟实验结果显示,B-A样本量估计方法得到的样本量始终小于新方法,差值均数越大,两种方法的样本量差异越大。B-A样本量估计方法得到的样本量所对应的把握度始终在50%左右,而新方法得到的样本量对应的把握度始终在事先设定的目标把握度水平上下波动。研究结论本文基于等效性试验双单侧检验的原理,分析了I类错误水平与置信水平的关系,通过对总的Ⅱ类错误的分解,进一步阐明和澄清了等效性试验样本量的估计方法,并借鉴其原理,拓展推导出Bland-Altman一致性评价方法的样本量的估计方法。两种方法对应的样本量估计均涉及到非中心t分布的原理,故需要进行迭代运算,较为繁琐,但借助计算机的运算这已不成问题。为方便应用,我们给出了不同参数设置下等效性试验和Bland-Altman一致性评价方法样本量的便查表。Bland-Altman一致性评价的样本量估计方法填补了该领域方法学上的空白。关于等效性试验的样本量估计方法,我们只考虑了以连续型变量为主要指标的等效性试验中最简单的情形,即两组平行组的设计,在等效性试验中还会涉及到其他的设计和资料类型,在本研究未多加考虑。关于Bland-Altman一致性评价的样本量估计方法,我们仅考虑了数据行为良好的方法比较研究。另外,该方法也只考虑了两种定量测量方法单次测量的情形,并未涉及到多种定量测量方法比较及重复测量的情形。有关数据行为不良及重复测量情形下的样本量估计方法,仍需进一步探讨。