论文部分内容阅读
随着信息社会的不断发展,海量数据的作用日益明显。多重检验作为分析高维数据的重要理论,已经引起了许多统计学者的注意。多重检验有着广泛的应用,比如生物信息学、医药行业以及基因组学等。本文着重探讨多重检验中原假设比例的估计与应用问题: 本文首先介绍了多重检验的背景、意义以及研究现状,通过对正确原假设比例估计问题进行分析研究,确定了本文的研究重点。接下来介绍了多重检验的一些基本理论,指出了多重检验中最重要的是控制第一类错误,然后给出了几种错误度量标准,指出了FWER和FDR的重要性。根据P值的定义与性质,提出用P值来进行假设检验。在假设检验相互独立和相依的情况下针对FDR介绍了各种检验方法,并引入了两阶段FDR控制方法。在研究错误发现率时,发现了估计正确原假设比例的重要性,并用数据说明了估计真正原假设比例的意义。 其次介绍了几种已有的估计方法,通过对已有方法进行分析研究,我们提出了新的估计方法。新方法主要是将三次样条方法应用在Jiang和Doerge(2008)提出的均值法上,并将几种方法分别在均匀数据集、非均匀数据集和隐藏相依结构的基因表达数据上进行模拟研究,给出了几种方法的估计值,我们发现新的估计法有较好的效果。 此外,我们又提出用参数混合模型来估计真正原假设的比例,主要针对正态分布混合模型给出了四种算法:矩估计方法(MM)、EM算法、k-means和EM算法(KMEM)以及改进k-means和EM算法(MKMEM),并对四种算法在不同情形下进行模拟,并给出了四种算法的估计偏差。 论文最后以微阵列数据为例,给出了三种数据集:乳腺癌基因表达数据、肿瘤细胞数据以及GSE1743肾移植数据,进行仿真研究,给出各种方法在不同数据集下的估计值,确定我们方法的可行性。