多模型共识数据建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:talent_luo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析化学数据的建模是化学计量学研究的重要内容。根据数据建模的任务不同,可以分为回归校正(regression)和模式识别(pattern recognition)。由于传统的单模型建模方法对数据中的噪声和样本量都比较敏感,在分析复杂的化学测量数据时,容易受到数据中噪声或样本量的影响,使模型的普适性(generalization performance)大大降低。为了弥补单模型建模方法的不足,近年来,多模型共识建模(ensemble modeling或consensus modeling)方法受到普遍重视,在很多研究领域得到广泛的研究和应用。本论文将多模型共识建模方法用于近红外光谱和基因芯片(microarray)数据的建模与分类,并对多模型共识建模方法的基本理论和应用进行了探讨,主要内容包括:1.综述了分析化学数据建模的基本原理以及常见的建模方法,重点总结了多模型共识建模的基本理论、常用建模方法以及应用现状。2.研究了随机抽样法多回归模型共识建模方法,提出了一种基于偏最小二乘(PLS)的多回归模型共识算法cPLS。该方法不是只利用预测性能最好的单个模型来预测未知样本,而是采用随机抽样技术扰动训练集,建立一系列的PLS模型,并从中选择部分预测性能较好的模型共同预测未知样本。通过对玉米近红外光谱数据的校正分析,结果表明,cPLS的预测性能要比普通PLS模型好,采用多个PLS模型的共识,不但提高了PLS模型的预测精度,而且也提高了PLS模型的普适性。3.将局部建模技术与多模型共识方法相结合,提出了一种动态建模多模型共识算法CDL-PLS。与普通PLS和基于bagging/boosting的PLS算法不同,CDL-PLS采用一种局部动态建模方法训练成员PLS模型,用于训练成员PLS模型的样本不是从原训练集中随机选取,而是根据训练集样本与未知预测样本之间在主成分空间的欧几里得距离来选取。通过对烟叶样品近红外光谱数据的校正分析,结果表明,局部动态建模技术可以提高PLS模型的预测精度和稳定性,而多个局部动态PLS模型的共识,可以进一步提高模型的预测精度和普适性。4.采用特征变量选择和非重复特征变量相结合的方法,建立了多分类器共识分类方法CAMCUN(consensus analysis of multiple classifiers using non-repetitive variables)。CAMCUN根据特征变量的预测能力有选择地建立非重复特征变量成员分类器,使各成员分类器之间尽可能不相关,以增加成员的多样性。通过对基因表达谱数据的分析,结果表明,CAMCUN的预测精度和普适性比其成员分类器有较大的提高。另外,对CAMCUN的偶然相关性(chance correlation)和预测结果的可信度(prediction confidence)分别进行了评估,研究结果表明,通过多分类器的共识,CAMCUN的偶然相关性降低而预测可信度得到了提高。5.研究了模式识别过程中特征变量的选择方法,提出了一种不相交主成分分析(disjoint principal component analysis)和遗传算法(genetic algorithm,GA)相结合的特征变量选择方法,并将其应用于基因表达谱数据中差异表达基因的识别。不相交PCA用于评估不同基因组合在区分两类样品时的区分能力大小,由于考虑了基因之间的组合效果,更加符合基因在生物体内发挥调控作用的实际情形。GA用于优化不同基因间的组合。此外,还提出了一种新的统计方法,对差异表达基因的偶然相关性进行了评估。研究结果表明,与文献中常用的差异表达基因识别方法t-检验和SAM(significance analysis of microarray)相比,新方法识别的差异表达基因具有更强的区分能力。
其他文献
对某院右髋关节关节囊内骨样骨瘤误诊误治1例分析如下。1病历摘要男,14岁。因无明显诱因的右髋关节肿胀酸痛,白天缓解,夜间加重10个月余,于2008-06入住某医院骨科,以右髋部感
针对当前装饰与图案类课程教学存在的弊端, 阐述了艺工融合模式的合理性和必然性, 强调单纯的课堂学习转变为将课堂学习与社会学习结合起来的重要性, 从而提高学生主动学习的
选取新疆哈密市为研究对象,探讨了新疆哈密市农户小额信贷整体发展状况,重点论述了新疆农户小额信贷的风险及其成因,并根据风险类型做出相应控制措施的建议,对解决新疆农户融
项目组合是连接战略和项目的桥梁。区别于以往有关项目管理中领导力的研究,针对高管和项目经理两种层次的领导角色,界定了领导力的内涵,从战略视角出发构建了领导力对项目组
<正>古人曰":善学者师逸而功倍,不善学者师勤而功半。"而现在学生被动学习的现象比较普遍,课堂上被动地接受知识,老师给多少,学生学多少,不能利用所学知识解决实际问题。大多
在中国经济新常态下,如何将高校科研机构的技术成果进行转化是重要的议题。本文通过对技术成果转化的驱动力、具备转化条件的技术成果特点分析,从市场竞争、转化风险控制、知识
当前,河北省已经形成了门类较为齐全、体系较为完善的农产品加工业体系,一些重要领域的产品已经进入全国乃至世界先进水平。同时,农产品加工业已成为河北省第三大经济支柱和
目的探讨老年人股骨颈骨折行人工关节置换术后预防深静脉血栓形成的方法、并发深静脉血栓后的护理措施。方法指导病人进行早期的功能锻炼,采用有效的预防和护理措施。结果 76
建立了液相色谱-串联质谱法测定Beagle犬血浆中替莫唑胺的活性代谢物5-(3-甲基三氮烯-1-基)咪唑-4-甲酰胺(MTIC)。采用Dikma C18色谱柱,以甲醇∶0.1%甲酸(含1 nmol/L乙酸铵)(