【摘 要】
:
在高维大数据中,多样性、异质性是数据的基本特征。数据信号弱、噪声大等因素常常使得模型分析效果欠佳。在实际数据分析中,数据本身的内在结构信息可以做为很有效的辅助信息
论文部分内容阅读
在高维大数据中,多样性、异质性是数据的基本特征。数据信号弱、噪声大等因素常常使得模型分析效果欠佳。在实际数据分析中,数据本身的内在结构信息可以做为很有效的辅助信息被使用。同时,数据的结构特性也往往是数据分析的研究目标。因此,研究如何借助和提取结构信息在高维数据分析方法中非常必要。本文首先详细地对治愈率模型、有限混合回归模型及具有调控关系的多信息源数据分析方法进行了综述,这些模型和方法均面向数据的异质性或多样性。本文基于惩罚方法,在上述模型框架下,探讨如何使用和提取数据的结构信息。具体来说:一是提出了一种惩罚方法来对混合治愈率模型进行估计,其中我们明确地考虑了协变量的结构效应。现有文献对协变量施加了严格的比例结构效应约束,我们的方法与之不同。我们通过检查回归系数的大小来研究协变量的结构效应,允许回归系数相似但是不相等,这种结构更为灵活。根据数据的特点,我们开发了不同的惩罚和相应的计算算法。所提出的方法具有很直观的公式结构,可以被有效地实现。模拟结果表明,该方法能够较准确地估计参数和识别相关变量,具有更好的性能。我们对两个乳腺癌数据集进行了分析,一个是低维度临床变量,另一个是高维度遗传变量。我们的方法不仅具有与现有研究不同的视角,而且在模拟和实际数据分析中均表现出明显优势。二是在有限混合回归模型中,提出了一种适应高维数据的结构化的惩罚方法,用于对重要变量实现正则化估计和变量选择,同样重要的是,还可用于识别潜在协变量效应结构。在现有文献中,对重要协变量之间的差异或者潜在的协变量效应结构缺乏关注。具体而言,重要的协变量可以分为两种类型:在不同的子总体中表现相同的协变量和表现不同的协变量。正确地识别这样的结构能使我们更好地理解协变量及其与响应变量的关系。我们的研究工作可以有效地弥补这种缺乏。所提方法能够有效地被实现,我们还对它的统计性质进行了研究,提供了估计量的非渐近的oracde结果,并且建立了它的一致性性质。模拟结果表明了该方法的优越性。在对癌症基因表达数据的分析中,我们发现了现有分析中遗漏的有趣的模型/结构。三是在有限混合回归模型的框架下,提出了一种基于惩罚函数的可借取不同组学数据结构信息的、促进不同组学数据一致聚类的方法。本研究面向高维组学数据异质性和多样性的特征。现有文献关注于组学数据的预后性能以及对重要基因的识别性能,与之不同的是,本研究关注于通过借取不同组学信息以提高聚类的准确性。在模拟和多维组学数据分析中,所提方法显示具有更为良好的聚类性能。
其他文献
随着社会发展和经济水平提升,危险废弃物越来越多,如果不能得到及时有效的处理,会对环境和人类安全造成严重影响。环境监测要考虑复杂性、多样性以及丰富性,在自然和人类的作用下,环境特征动态变化着。为了能随时得到资源变化,研究了动态监测方法,开发了一款移动应用。我国移动互联网的高速普及和发展,使用这些移动设备和终端的中国网民逐年扩大,移动设备的研发和生产在近几年也一直呈现出井喷之势。环境的改变对人类有着一
随着科学技术的发展,目前压力容器已广泛用于建筑、化工、制酒、食品、石油等行业中,对于压力容器焊缝缺陷的检测是保证压力容器质量的重要环节,如果能够解决这一环节的缺陷检测难题不仅能够有效的提升压力容器生产质量,而且还能有效地避免压力容器因质量问题引发的有害气液体泄露对环境及人类造成的伤害。此外,X射线成像技术具有低成本、易于产生X光片、成像时间短、焊缝缺陷定位精度高等优点,所以目前采用X射线检测是对焊
近年来,随着互联网技术的高速发展,企业市场环境瞬息万变,企业面临一个更加复杂多变的生存环境。企业要保持持续发展,必须客观分析企业面临的内外部环境,有效整合企业内外部
污泥是污水处理过程中生成的副产物,是一种有害物质,如果这些污泥不能得到合理的处置,不但浪费了资源,并且会导致严重的环境污染。一般处置方式有:填埋、高温焚烧、农田利用等,这些方式不能从根本上解决污泥带来的危害,并且易对周围环境产生不利的消极影响,存在较大的弊端。近几年来,对于减少污泥产量、消除污泥对环境的潜在危害、将污泥进行资源化再利用等研究已成为环境保护领域关注的热点。本文将市政污泥和废弃泡沫塑料
细胞自噬和凋亡是细胞生命历程中的两个非常重要的反应机制,它们的运转方式受到精致调控.研究表明,网络路径的重叠和复杂精密的调节存在于细胞自噬和细胞凋亡中,且这两者反应
由于环境污染日益严重,空气中的颗粒物、硫氧化物、重金属物都是引起人体肺部疾病的元凶。肺癌现在是世界上最常见的恶性肿瘤之一,对肺癌采取早期诊断和治疗是提高患者生存率并且减轻医疗负担的关键。随着人工智能的发展,利用机器学习算法对肺结节进行检测是人工智能医疗器械发展的热点方向,它可以显著改善医生分析医学图像的质量和效率。算法训练和产品测试所使用的数据集对于整个生命周期的品质管理和风险管理非常重要。来自单
随着工业化的快速发展,工业源排放的VOCs总量也在持续增长,“十四五”将其设为改善指标之一。微波无极紫外降解处理VOCs操作简单无新污染物产生等优点,但处置过程中产生的臭氧问题引起广泛重视。本课题利用High Frequency Structure Simula-tor(HFSS)、Computational Fluid Dynamics(CFD)等数值模拟软件模拟微波无极紫外发生装置内电场及紫外
知识管理,特别是知识共享管理在这个知识经济时代,受到越来越多的关注与研究。知识已经成为全球生产力与世界经济增长的驱动力,对于企业而言也是一样,是企业增长的动力。企业
改革开放以来,中国经济社会发展取得了举世瞩目的成就,但以要素驱动和投资驱动为特征的数量型经济增长模式在推动中国经济快速发展的同时,经济发展中低端供给过剩、高端供给
在能源短缺与环境污染的时代背景下,热电发电技术作为一种重要的节能减排手段已经成为人们关注的重点,在多个领域中已有示范性应用。在热电技术应用的众多领域中,以汽车尾气废热回收利用为代表废热回收利用领域和以光伏-热电耦合为代表的新能源领域,普及范围较广、研究程度较深,具有较强的代表性。但由于热电材料性能优值较低,热电器件结构不够理想等原因,热电发电技术在实际应用中未能发挥最大效能。通过优化热电系统中冷热