多数据集下的变量选择方法

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:fish3321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年,大规模的数据集呈爆炸式增长,医学、生物学、工程、经济与金融领域中的大数据也越来越普遍.其中,在生物学和生命科学领域,高通量测序技术的快速发展,使得该学科不断地产生各类大规模的数据集.而且随着测序技术在医疗、制药、环境与能源领域中应用的深入,数据的维数越来越大,数据的层次也越来越复杂,如何将多个数据进行综合分析从噪音中分离出有价值的信息是个很值得研究的问题.与单个数据集相比,整合分析不仅可以利用更多的样本,还可以充分利用多个数据集间的关系从而得到额外的信息.由于单数据集中,变量的维数已经很高(远大于样本量),基于这些单数据集的整合分析面临的一大困难便是数据降维.在本文中,我们考虑利用多个数据集的特点构造惩罚函数,从高维的协变量中选出与响应变量有关联的变量,从而有效地解决了高维多数据集的整合分析问题.  本文的内容包括两个部分,第一部分为同水平下的多数据集整合分析,主要是将多个独立研究中产生的同类型数据集进行整合分析.第二部分为不同水平下的数据集整合分析,主要是指将由不同平台产生的、反应了相同样本的多个不同层面的数据集进行整合分析.  第一部分的内容主要有两点.第一点,在多个相互独立的同水平数据集下,提出了具有光滑系数效果的contrast惩罚函数.在利用高通量的基因谱数据进行癌症研究时,整合分析可以有效地利用多个相互独立的数据集进行建模,得到结果要优于经典的Meta分析和单数据集分析.如果研究的目的是挑选重要的候选基因,我们可以利用同质模型和异质模型来刻画相互独立的数据集.由于异质模型比同质模型更广泛,在这里,我们考虑在异质模型下进行变量选择.惩罚函数已被广泛用来变量选择,我们的贡献在于引入contrast惩罚函数,它可以很好地适应单数据集内部的协变量结构,以及多数据集之间的协变量结构,而且还可以提高变量选择的准确性.在具体操作中,我们利用惩罚函数来光滑同一基因在不同数据集上的系数.基于Coordinate Descent算法,我们给出了可以较快地求解带contrast的组Bridge惩罚的迭代算法.模拟计算表明,与组Bridge相比,我们的方法可以明显地提高变量选择的准确性,主要表现为,在识别出相近数目的重要变量下,contrasted方法可以有效地降低错选的重要变量.利用该方法分析协变量为基因表达量的乳腺癌数据和肺癌数据,同基准方法相比,我们的方法有着更好的模型预报准确性.第二点为对于同水平数据集的实证研究.在边际分析和联合分析框架下,我们回顾了一些常用的变量选择方法,并运用这些方法分析了26个基因表达谱数据.我们通过挑选的候选基因集的交集来度量各数据集间的相似性.基于5种癌症的26个GEO(Gene Expression Omnibus)数据集的分析结果表明,在同一种癌症的不同数据集上挑选的重要基因差异较大,不同癌症的数据集间共有的基因数目较少.  第二部分的内容也有两点.第一点,为了综合考虑环境变量、基因以及它们的交互作用,我们基于秩估计来识别基因-环境交互作用.目前常用的方法是基于参数或半参数模型的假定,因而有模型误判的问题.此外,这些方法一般基于多重假设检验.我们提出的方法并不需要特定的模型假定,而且所使用的秩估计方法十分稳健.许多常用的统计模型均在该框架内,因而具有稳健性.我们利用变量选择方法,可以同时进行系数估计和变量选择.为了简便,我们考虑光滑的秩估计方法.模拟计算表明,在特定的情形下,例如误差带污染或为厚尾分布时,我们的方法在变量识别的准确性上要优于已有的方法.利用该方法分析响应变量为带右删失的生存时间、协变量为基因表达量的肺癌数据,识别出的基因和交互作用均有着重要的生物学意义.第二点,为研究不同平台变量间的作用机制从而更好的理解癌症的生理过程,我们在多元响应变量的框架下,提出新的惩罚函数(Double Laplacian Shrinkage,DLS).DLS是MCP和两个Laplacian二次项的组合,其利用MCP进行变量选择,并利用两个Laplacian二次项分别光滑对应于协变量和响应变量的系数.我们提出的这种方法可以同时利用协变量与响应变量内部的网络结构信息来提高变量选择以及模型预报的准确性.  尽管本文实例分析中的数据均来自生物医学数据,但提出的方法也可以应用到经济、金融、工程等领域.
其他文献
我是个不安分画画的人。《艺术沙龙》:您怎样评价“70后”“80后”画家的艺术创作?陈镜田:一群不安分画画的人,满脑子都充斥着有别于人的构思。《艺术沙龙》:您觉得“新水墨
并行程序的错误可分为进程间错误(inter-process fault)和进程内部错误(intra-process fault).其中, 进程内部错误是由控制流错误造成的, 而进程间错误是由进程间的不合理时
学位
目的研究2型糖尿病患者下肢血管病变与血浆载脂蛋白M(apolipoprotein M,Apo M)的相关性。方法收集2014年9月-2016年6月在第三军医大学大坪医院野战外科研究所高血压内分泌科
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
缩短程序的执行时间是并行处理的首要目标,有效的任务分配算法是实现这一目标的关键,对群机系统来说更是如此.文中针对并行语言中常用的并行范式——单并发任务簇提出了近优分配
一大早,外面就下起了大雪.大约九点钟时,爷爷因为要外出办事,带我乘上了李叔叔的车.rn一路上,大雪纷飞.纷纷扬扬的雪中,车来车往,路上几乎看不到行人,只有一个人站在路中央,
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文结合中国企业资本运营兼并存在的兼并行为不规范问题、企业法人主体问题、政府行为问题、兼并政府法规等问题,首先对资本运营问题进行深入的研究,介绍了企业兼并的基本概
《义务教育数学课程标准》明确指出:要在教学活动中激发学生学习的兴趣,引导学生在学习中逐步培养起独立自主的学习能力,促进学生全面发展。但是在当前的小学数学教学中,学生
期刊