高维生物数据分析中模型平均方法的应用研究

来源 :福建农林大学 | 被引量 : 0次 | 上传用户:ywl1241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的今天,生物技术的不断发展,出现了大量的高维生物数据。例如基因芯片技术大大提高了基因测序的效率和降低了测序的成本,并随之产生了大量的高维生物数据。而这些生物数据的维数从几十维几百维到几千维,数据量庞大而且斑驳复杂,数据的冗余性和不相关性随之增加。为降低高维数据包含的噪声,提高研究效率,变量选择方法得到重视和发展。模型平均方法不依赖于一个最佳模型,而是通过给更好的模型赋予更高的权重进行组合预测。因此,模型平均能综合利用单项模型的有用信息,减少受单项模型选择中不确定因素的影响。本论文利用模型平均方法的优势,对高维生物数据进——行建模分析,得到比单个模型分析更好的精度和效果。研究内容分为三个部分:1、基于Logistic回归模型平均的疾病诊断研究。首先,通过蒙特卡洛方法模拟出六类数据类型,分别运用基于Logistic回归模型的三个惩罚函数方法(SCAD-L方法、gMCP-L方法和GB-L方法)及其对应的四个组合模型(gMCP+SCAD-L方法、gMCP+cMCP-L方法、gMCP+GB-L方法和cMCP+SCAD-L方法)进行分析比较各类数据建模效果。并以UCI中的Arrhythmia数据集为实例验证,得到gMCP-L方法和GB-L方法的组合模型具有比三个单项模型和其余组合模型更高的分类预测精度。研究结果表明,模型平均方法(组合模型)一定程度上综合利用了单项模型包含的信息,提高了疾病诊断的精确度,能够更好地辅助医生进行疾病诊断。2、生存数据分析中模型平均方法的应用研究。以乳腺癌数据集为基础,模拟不同删失比例所对应的事件时间和状态。首先通过随机森林方法对变量进行初步筛选,再利用贝叶斯模型平均方法对筛选后的变量做分析计算。将贝叶斯模型平均的分析结果与COX风险回归模型作比较,结果表明贝叶斯模型平均方法具有更高的计算精度。3、模型平均方法在高维基因数据的应用研究。基于高维数据线性回归模型中解释变量P大于样本量n的情况,本文提出了利用模型平均方法进行建模分析的改进方法,具体步骤如下:第一,按照解释变量对响应变量的显著性检验的P-value值的大小进行排序,对解释变量进行分组;第二,对每组建立回归模型;第三,通过Jackknife、Mallows准则等各种方法分别计算各模型权重,对若干个回归模型做模型平均。研究表明:该模型平均改进方法能得到的较高的模型精度。综上所述,模型平均方法在疾病诊断、高维生存数据和高维基因数据中均有更为优良的表现。
其他文献
目的:观察推拿配合拔罐运动疗法对肩周炎患者的疼痛、前屈上举功能及日常生活能力的改善情况,以评价该方案对肩周炎的疗效,并优化肩周炎的临床推拿治疗方案。方法:将严格按照纳入标准及排除标准筛选的60例就诊于福建省第二人民医院的肩周炎患者,随机分为治疗组和对照组,治疗组30例,对照组30例。治疗组采用推拿配合拔罐运动疗法治疗,对照组采用推拿配合普通拔罐治疗,隔日治疗1次,10次为一个疗程。采用视觉模拟评分
水产品滋味鲜美,具有丰富的营养物质,深受消费者的青睐。然而,由水产品而引发的食物过敏问题却在近年来不断增加,影响人们的安全健康,受到广泛关注。原肌球蛋白(Tropomyosin,TM)已被证实是甲壳类和贝类中的主要过敏原,是一种分子量约36kDa、由两个相同亚基组成的肌原纤维蛋白。当前,针对TM的鉴别、检测技术主要有以酶联免疫吸附法为代表的免疫检测技术、聚合酶链式反应(PolymeraseChai
近年来,我国经济在快速发展的同时也面临着巨大的环境压力。而企业行为的不规范则成为我国环境问题的主要来源,企业在履行环境责任方面的表现受到了社会广泛关注,学者们也试图探索影响企业承担环境责任的因素。连锁董事在我国董事会中普遍存在,是企业之间信息沟通的桥梁,不同企业通过连锁董事而形成企业间的网络关系,降低了企业获取资源的不确定性,本文从连锁董事的角度出发研究企业环境责任。本文基于资源依赖理论、制度理论
燃煤发电项目是指以煤炭为燃料,正在规划、建设或已经投产运营的火力发电单元。由于煤炭燃料约占到火力发电生产运营成本的70%,我国煤炭产量70%以上用于发电,燃煤火力发电量
行政强制中第三人的权益保障,是指对与已作出的行政强制行为有利害关系的、受强制行为作用或约束的行政相对人之外的、或受行政机关邀请、委托参与行政强制过程的公民、法人或者其他组织的合法权益进行保障的活动。行政强制行为在行使过程中极易造成第三人合法权益的损害,尤其导致第三人人身权、财产权的受损。造成行政强制第三人权益受损的规范因素主要有:《行政强制法》内容存在缺陷,强制主体的执法不规范,缺乏第三人权益救济
嫩椰子是一种成熟度为6-9个月的椰子,嫩椰子水的味道甜美,深受消费者的喜爱,但由于运输成本高,贮藏期短其商业发展受到了很大的限制,这不能用现有的研究来解释。采用UPLC-MS/MS和GC-MS技术的代谢组学方法,对冷藏条件下椰子水中的代谢物进行了鉴定和统计分析。UPLC-MS/MS条件下,对嫩椰子储藏过程中各组样本进行PCA、PLS-DA和OPLS-DA进行分析。PCA得分图显示在NT-pos条件
望果节是西藏地区最为隆重的农耕仪式活动,流行于西藏自治区的拉萨、日喀则、山南等地,它是藏族先辈对土地崇拜、神灵信仰的产物,融合了苯教与佛教的宗教文化,在近千年的发展过程中成为西藏人们喜闻乐见的传统节日。望果节作为西藏民族文化的重要载体,展示出西藏宗教文化、农耕文化、民俗文化、歌舞艺术、以及文娱活动等文化内涵。文章以人类学、民族音乐学以及仪式学等学科相关领域的理论为指导,在文献资料和田野调查的基础上
研究背景和目的脂肪移植是整形外科软组织填充与重建的理想方法。但不可预测的保留率极大地限制了其应用。在临床中,自体脂肪隆胸和面部年轻化等软组织填充常涉及肌肉相关的
研究背景骨缺损至今仍是最常见的骨科问题之一,严重影响着人类的健康。临床上,对于因创伤、肿瘤切除、先天畸形等原因导致的骨缺损,需通过骨移植来完成修复。自体骨和同种异
掘进机是集截割、装运、除尘、搬运、操作等功能于一体的煤矿机械,主要用于截割井下岩石、煤或半煤岩巷道,是煤矿井下生产的重要机械设备之一。随着新型传感器及信息技术的发