复杂删失数据的切片逆回归及Lasso型变量选择

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:axu4g00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生存分析中,所感兴趣变量是生存时间,如某种病症病人的发病时间或某种病症病人的痊愈时间等。在医学、生物学、可靠性工程学等学科研究中,右删失数据与区间删失数据这两种数据类型是非常普遍存在的。在许多的实际研究与应用中,有很多因素影响着生存时间,并且随着计算机存储技术的提高,数据有着高维特点。因此,如何在高维数据中提取到有效信息是很重要的。目前有许多的变量选择方法,如Lasso、SCAD等应用广泛然而需要考虑特定的模型才能对数据进行降维,因此具有一定的局限性。切片逆回归(SIR,Sliced Inverse Regression)是一种经典的充分降维方法,该方法不需要假定任何模型,且具有容易实施的特点。因此,本文将切片逆回归以及其拓展的Lasso型切片逆回归推广到删失数据中,文章主要可以分为以下两部分。本文第一部分通过赋予权重的方式将切片逆回归的方法应用到区间I删失数据的变量选择中。在不假定任何模型下,使用切片逆回归方法对数据进行变量选择,考虑了三种切片方式,进而给出对应的权重,然后根据权重将切片逆回归的方法进行改进。在求解前,需要使用卡方检验的方法来确定中心降维子空间的维数。通过模拟研究证明了不同切片方式下变量选择的有效性,并将该方法应用到大鼠胆管增生数据。本文第二部分通过赋予权重的方式将Lasso型切片逆回归(Lasso-SIR)应用到右删失数据的变量选择中。SIR方法一般应用于协变量维数低于样本量的情况,在协变量维数大或等于样本量,即高维数据下方法失效。因此,这一部分考虑将Lasso与SIR方法结合,对存在右删失的高维数据进行变量选择。本节根据右删失数据的特点建立相应的权重矩阵,通过构建一个响应变量然后使用Lasso的方法来估计中心子空间的基向量。通过模拟结果表明,该方法适用于协变量维数大于等于样本量的情况,即估计的中心降维子空间与真实的子空间之间的距离较小,且能够将重要的变量选择出来。将该方法应用到弥漫性大B细胞淋巴瘤的基因数据。
其他文献
分类问题一直是数据挖掘中的重点,有序分类是一种特殊的分类,其类别之间存在顺序关系。当前关于有序分类的研究主要集中在对支持向量机、神经网络、决策树等算法的改进中,但是这些算法无法进行知识表达,即不能识别影响分类的关键特征。在知识表达方面,贝叶斯网络具有优势,它可以通过图形化的方式直观表示出和类别相关的特征。但是当前关于有序分类的贝叶斯网络算法的研究甚少,已有的Halbersberg算法虽然可以利用信
学位
<正>党的二十大报告用“六个坚持”深刻阐述了习近平新时代中国特色社会主义思想的世界观和方法论,为我们理解和把握党的创新理论提供了“金钥匙”。做好新时代共青团和青年工作,必须深刻领会、准确把握、灵活运用这一科学的世界观和方法论,坚决贯彻落实到工作的各方面全过程,团结带领广大团员青年在奋力推进中国式现代化的征程中答好青春之问、担好青春之责。
期刊
习近平总书记在十九大报告中指出,“必须树立和践行绿水青山就是金山银山的理念,坚持节约资源和保护环境的基本国策”,优良生态环境是经济发展的源动力,也是人民对发展的核心期盼。2018年中央一号文件也明确指出了“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”的乡村振兴二十字方针,推进农业农村现代化,实现乡村振兴离不开生态环境质量的持续提升。因而,推进清洁取暖“煤改气(电)”政策,改善农村空气质量,是
学位
习近平新时代中国特色社会主义思想开辟了马克思主义中国化时代化的新境界。这个“新”不仅体现在先进理论指导中国特色社会主义事业的实践取得了历史性成就,还体现在贯穿其中的世界观和方法论。党的二十大报告将习近平新时代中国特色社会主义思想的世界观和方法论归纳为“六个坚持”,即坚持人民至上、坚持自信自立、坚持守正创新、坚持问题导向、坚持系统观念、坚持胸怀天下。这些科学的观点和方法是培养高中生科学精神的鲜活教材
期刊
中共二十大报告提出的“六个坚持”,从世界观和方法论的高度深刻阐释了习近平新时代中国特色社会主义思想的精髓要义,为新时代高校思想政治教育工作提供了方法论遵循。做好新时代高校思政工作要切实把握好“六个坚持”的科学内涵,把握好“六个坚持”的逻辑理路,拓宽实践路径,将“六个坚持”贯穿新时代高校思政工作全过程,把立德树人根本落到实处。
期刊
分类算法是人工智能领域重要的研究内容之一,广泛应用在了科学和工程的各个领域。极限学习机是一种单隐层前馈神经网络方法,在建立模型时,随机初始化输入层到隐藏层之间的参数,通过解析计算得到隐藏层和输出层之间的权重。相较于传统的神经网络模型,极限学习机模型的训练速度更快,泛化能力也更好。因此,极限学习机作为一种分类器模型,一直广受欢迎。本文基于极限学习机的研究,主要进行了如下工作:首先,向双隐层极限学习机
学位
聚氨酯因其有较好的稳定性、耐化学性、耐磨、回弹性和力学性能、更小的压缩变型性、隔热、隔音、抗震、防毒等优良性能被广泛应用。由于人们对这些材料的巨大需求,产量正在增长,同时消耗也会急剧增大,这些材料中有大量被填埋。化学回收是回收聚氨酯材料的最有效途径,化学回收是指将聚合物完全解聚为单体的过程。除了蒸馏、结晶和附加化学反应等不同的纯化过程外,再生过程还可能涉及各种单体/聚合物纯化步骤。由于它们不能再使
学位
细菌和病毒的传染对人类的生存环境造成了巨大的威胁,同时传统的石油基材料对环境污染巨大,发展绿色安全的生物基材料的呼声越来越高。纤维素是在自然界中广泛分布,储量巨大的多糖,从很早之前就被人们广泛使用。但纤维素材料本身的多糖结构容易沾染细菌,成为病毒滋生的温床,变成疾病传播的载体,因此许多行业对纤维素材料的抗菌性能提出了更高的要求。本论文以制备的有机抗菌剂赖氨酸接枝N-卤胺和大麻纤维为原料,通过简单温
学位
在生存分析中,研究者主要关注的是患者的发病时间或者是死亡时间,但是由于时间、经费或者其它原因的限制,往往不能准确观测到事情发生的具体时点,因此会出现删失数据。删失数据在医学领域中是很常见的一种数据类型,而数据的删失通常会造成研究对象的信息缺失,因此对这类数据的研究至关重要。在与生存分析有关的探究中,对于删失数据作有关参数或非参数的统计研究已经有了一定的发展。而本文研究的数据类型是部分区间删失数据,
学位
本文将因子熵值法应用于农作物生产能力的综合评价,以及种质资源发展的外在影响因素分析。然后根据上述评价结果,在对保护和利用吉林省农作物种质资源问题的分析时,构建出一个能调整农作物种植结构的多目标优化模型,并将其应用到调整农作物种质资源统计与管理的相关问题中。文章首先运用SPSS软件和Matlab软件,采用因子熵值法对吉林省1998-2019年农作物的生产能力进行了综合评价,从吉林省农作物生产能力方面
学位