论文部分内容阅读
通过高通量技术的应用,组学研究已经可以同时测量成百上千特征表达值的改变。然而,虽然组学研究在生物医药、疾病等领域取得了一系列的成功,但是也出现了一些问题严重阻碍着组学的进一步发展与进步。这些问题包括研究的统计功效过低、结果重现性较差等问题。这些问题的出现得到了极大的关注,并且被认为是多种原因的结果。有研究人员提出,在这些原因当中,样本量是解决问题的关键。在组学研究中,样本量是一个关键因素,它意味着该项研究科学性与伦理性的平衡。如果一个研究的样本量过小,则会影响该研究发现真正的科学问题,最终导致时间和成本的浪费;而相反,如果研究的样本量过大,则意味着在实验中投入了过多的样本,提高了研究的成本,特别当研究有潜在危害性时,还会引起伦理问题。因此,在组学研究中有必要进行样本量的评估与计算。统计功效、分类准确率及结果稳定性分别从不同角度对组学研究的样本量进行评估。统计功效能够反映该项研究的灵敏度,它是指一项研究发现组间差异的能力。分类准确率是指通过组学发现的生物标志物所建立预测模型的预测准确率,一般用AUC、ACC等来表示。结果稳定性表示发现标志物的可重复性,即针对同一疾病所建立标志物的一个性能评估,可以通过Overlap,Concordance,Weighted Consistency等标准来进行评估。考虑到这三项指标之间相互补充,缺一不可,能够对组学的样本量进行综合的评估与计算,满足组学研究的需要,我们开展了以下工作:首先,对不同数据在相同样本量下的指标数值进行对比研究,结果表明,在样本量评估时,不同数据之间相互独立,这一结论通过对不同数据达到相同指标阈值所需要的样本量进行对比得到了进一步验证,因此,我们认为在进行样本量的评估计算时,不存在一个数值对组学研究的样本量进行笼统的概括,而应该针对不同的数据进行相应的研究。然后,我们对同一数据达到不同指标阈值所需要的样本量进行比对,发现结果会随着指标的不同而不同,而且数值之间不存在相关性,指标之间相互独立。同时,我们对18组来源于不同组学数据的样本量进行计算,发现满足不同指标阈值所需要的样本量的大小顺序之间不存在一定的规律,因此无法简单的将某一指标作为最宽松或最严格标准来看待。因此,在进行样本量的评估与计算时,我们建议应该采用多指标、综合的研究。最后,我们借助R‘shiny’包构建相应的在线工具——SSizer,用于进行组学样本量的综合评估与计算。SSizer整合了三种指标(统计功效、分类准确率、结果稳定性)共六项标准(Power,AUC,ACC,Overlap,Concordance,CW),以及多种数据预处理、分析算法,为满足不同研究的需求。同时,通过准确的数据模拟算法的引入,SSizer能够基于上述三项标准对相应研究的样本量进行计算,从而帮助后续研究更好地开展,使研究在拥有足够样本量的前提下进行。综上所述,本次研究从组学样本量出发,基于三种常见指标,对组学样本量进行综合地评估与计算,并在此基础上,建立相应的在线工具,帮助科学家们更好地从研究中发现生物学问题,促进生命科学、生物医药领域的进一步发展与进步。