两样本问题中差异表达基因的筛选研究

来源 :中南大学 | 被引量 : 1次 | 上传用户:sswei1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从变量相关性角度、对变量被选概率添加罚因子的思想提出基因特征选择的方法,根据基因被选次数来决定其是否差异表达。结合常用的SAM(Significance Analysis of Microarray)法和Bradley Efron提出的方法,比较分析了两组数据。   模拟数据的前20个变量被标识为差异表达。SAM法筛选出17个变量,都来自目标变量,未被选出的三个变量是12号、18号和19号。当fdr<0.2时,Efron的方法筛选出18个变量,都属于被标识的差异变量,12、18号未被选出。本文方法筛选结果中,频数排在前17位的都是目标变量,其余三个目标变量19号、18号、12号的频数分别位于第19、22、24位。前24位中目标外的四个变量分别是第841、371、140和492号。从两样本t统计量的p-value分析,以上四个目标外变量的p-value确实比12号、18号要小,其余18个目标变量的p-value位于前18位,这说明这四个变量的出现是合理的。用Efron的方法筛选基因结果优于SAM法,而本文方法能更准确地对变量排序。   本文比较了变量筛选概率添加罚因子和不添加时的结果。添加罚因子时,目标变量累积出现次数比重为68%,只有3个目标变量未出现,12个频数大于1的变量都是目标变量。不添加罚因子时,未出现变量达到9个,频数大于1的7个变量中只有5个是目标变量。这说明添加了罚因子提高筛选效率和准确度。   第二组数据是Golub的白血病数据。SAM法筛选出了76个基因。Efron法在fdr<0.2,只筛选出6个基因;当fdr<0.4时,得到23个基因。本文方法选择频数大于38的基因共74个,有41个出现在SAM法的结果中。排在前5位的分别是X95735_at、M27891_at、M23197_at、Y12670 at和M16038_at,从t统计量的p-value分析,这5个基因的p-value排在前6位。选择排在前20位的基因做进一步分析,添加罚因子运行一次时,出现次数大于1的基因中,70%出现在总结果中的前20位,有7个出现在Efron的方法结果中。不添加罚因子时,只有38%位于前20位,且只有6个位于Efron的方法结果中。从与总结果、Efron法的结果比较来看,添加罚因子效果更佳。   用SAM法筛选的基因建立支持向量机分类器时,错分率为0,支持向量个数达到31。当fdr<0.2,Efron法筛选出的6个基因建立分类器错分率为2.63%,支持向量个数19个;当fdr<0.4,筛选出的23个基因建立分类器时,虽然错分率为0,但是支持向量为20个。而本文方法筛选出的前20个基因建立分类器时,不仅错分率为0,而且仅12个支持向量。   本文方法不仅能更准确地筛选出目标基因,而且能对基因的差异表达排序。添加罚因子时筛选效果更佳。Golub数据集中,本文方法筛选的基因建立SVM分类器错分率为0,支持向量数最少。  
其他文献
数据挖掘是近些年来在信息技术领域兴起的一个比较重要的研究领域。在交通领域,众多车辆的大量原始数据的价值在于其中可能隐藏着大量未知的信息,而这些信息可以给人们提供更
Bismut[4]1973首次引入线性倒向随机微分方程,非线性倒向随机微分方程的解的存在唯一性首先由Pardoux和Peng[56]在1990年证明。之后,倒向方程理论及相关应用开始了飞速发展,尤其
本文研究了关于极大类p群的两个相关问题。本文共四章:第一章是本文的引言。第二章是预备知识。第三章给出了二步中心化子不唯一的极大类p群一些结果。第四章决定了非交换子群
本文主要研究的是机动跟踪控制问题。所谓的机动(maneuvering)控制问题,一般包含了两个任务。第一个任务是使系统的状态或输出跟踪一个期望的参数化路径yd(θ(t)),第二个任务