论文部分内容阅读
本文从变量相关性角度、对变量被选概率添加罚因子的思想提出基因特征选择的方法,根据基因被选次数来决定其是否差异表达。结合常用的SAM(Significance Analysis of Microarray)法和Bradley Efron提出的方法,比较分析了两组数据。
模拟数据的前20个变量被标识为差异表达。SAM法筛选出17个变量,都来自目标变量,未被选出的三个变量是12号、18号和19号。当fdr<0.2时,Efron的方法筛选出18个变量,都属于被标识的差异变量,12、18号未被选出。本文方法筛选结果中,频数排在前17位的都是目标变量,其余三个目标变量19号、18号、12号的频数分别位于第19、22、24位。前24位中目标外的四个变量分别是第841、371、140和492号。从两样本t统计量的p-value分析,以上四个目标外变量的p-value确实比12号、18号要小,其余18个目标变量的p-value位于前18位,这说明这四个变量的出现是合理的。用Efron的方法筛选基因结果优于SAM法,而本文方法能更准确地对变量排序。
本文比较了变量筛选概率添加罚因子和不添加时的结果。添加罚因子时,目标变量累积出现次数比重为68%,只有3个目标变量未出现,12个频数大于1的变量都是目标变量。不添加罚因子时,未出现变量达到9个,频数大于1的7个变量中只有5个是目标变量。这说明添加了罚因子提高筛选效率和准确度。
第二组数据是Golub的白血病数据。SAM法筛选出了76个基因。Efron法在fdr<0.2,只筛选出6个基因;当fdr<0.4时,得到23个基因。本文方法选择频数大于38的基因共74个,有41个出现在SAM法的结果中。排在前5位的分别是X95735_at、M27891_at、M23197_at、Y12670 at和M16038_at,从t统计量的p-value分析,这5个基因的p-value排在前6位。选择排在前20位的基因做进一步分析,添加罚因子运行一次时,出现次数大于1的基因中,70%出现在总结果中的前20位,有7个出现在Efron的方法结果中。不添加罚因子时,只有38%位于前20位,且只有6个位于Efron的方法结果中。从与总结果、Efron法的结果比较来看,添加罚因子效果更佳。
用SAM法筛选的基因建立支持向量机分类器时,错分率为0,支持向量个数达到31。当fdr<0.2,Efron法筛选出的6个基因建立分类器错分率为2.63%,支持向量个数19个;当fdr<0.4,筛选出的23个基因建立分类器时,虽然错分率为0,但是支持向量为20个。而本文方法筛选出的前20个基因建立分类器时,不仅错分率为0,而且仅12个支持向量。
本文方法不仅能更准确地筛选出目标基因,而且能对基因的差异表达排序。添加罚因子时筛选效果更佳。Golub数据集中,本文方法筛选的基因建立SVM分类器错分率为0,支持向量数最少。