论文部分内容阅读
本论文以偏最小二乘(PLS)变量筛选方法为研究对象,在对PLS方法分析的基础上,结合变量筛选方法,提出了一个新的基于PLS的变量删除判据,发展了一种利用PLS的变量筛选方法,编写了VBA程序,并将新方法应用于实践。意义在于发展一种适合处理复杂回归建模问题的化学计量学算法,为分析和解决实际问题尤其是本实验室相关的课题提供有价值的方法。本论文共分为以下几个部分:第一章,文献调研:概述了化学计量学方法的发展历程、研究范畴、各种常用的模式识别技术和变量优选方法。在此基础上,结合本实验室现有分析数据和研究课题,提出了本论文研究的立题依据、研究目的、意义及主要内容。第二章,理论部分:介绍了偏最小二乘方法的原理,在此基础上找到了一个新的基于PLS的变量删除判据,发展了一种利用PLS的变量筛选方法,详细介绍了此法的推理过程、原理和验证、操作过程、方法特点及部分VBA程序。该法根据PLS建模中的回归系数等一些信息,筛选原始自变量,能在不损失模型预报能力的前提下,除去冗余的或影响不大的一些原始自变量,使模型更简单。第三至六章,应用实例:(1)应用PLS处理胶州湾和莱州湾的几个主要污染源附近海域各站点取得的海水样本的气一质联用全谱数据,建立海水样品的分类模型,得到的分类模型交叉检验相关系数可达0.91以上,判别准确率96%以上,结果较为理想,可为正确判别污染源提供一个可靠的基础。采用所得模型的拟合值等一些信息作分类图的方法,与传统PLS作图方法比较,所得分类图能更好的表达回归模型的分类效果。(2)应用PLS变量筛选法建立甘草样本不同生长方式的HPLC数据分类模型,筛选出区分人工与野生甘草样本的主要变量参数,得到理想的分类效果,与传统的算法比较,模型得到了大大简化和提炼;(3)改进新方法的实现过程,修改VBA程序,以提高建模的运行效率和自动化程度。将改进后的PLS变量筛选法结合变量扩维技术处理了以下两个实际问题:①处理从云南昆明、思茅、西双版纳三个口岸缴获的224个海洛因样品的GC-MS数据,得到三个模型的变量数都小于10个,实际判别准确率均达95%以上,可有效识别毒品的来源,为科学预测毒品犯罪的线路、手段等提供科学依据;②处理厦门地区133例不同年龄、性别的正常人发样中微量元素的原子光谱数据,得到模型的判别准确率也达95%以上,与一般的PLS方法建立的线性模型相比,CR值提高了30%多,达到较理想的判别分类效果。通过人发微量元素含量的信息判别出人的性别和年龄,能为公安侦破等方面起到一定的辅助作用。这些研究无论对化学计量学算法的发展和分析科学实际问题的解决都具有重要意义。最后一章总结了本论文工作的主要结论和创新点,并提出了对今后工作的设想。通过对PLS变量筛选方法的研究,找到了用于删除变量的一个新判据,提出了一种基于偏最小二乘法的变量筛选方法;对传统PLS作分类图的方法作了改进;用PLS法建立了不同区域海水样品GC-MS全谱数据的分类模型;采用PLS变量筛选方法建立了不同生长方式甘草样品的简单分类模型并找到多组变量解。通过PLS变量筛选与变量扩维技术结合的方法建立了毒品来源的分类模型,以及人发微量元素与性别、年龄关系的回归模型。对本文许多数据处理的结果说明,本文提出的利用PLS法得到的删除变量的新判据筛选变量是一种非常实用和有效的变量筛选方法。用其建立的回归模型非常简单,可提取出分类的重要变量信息,因而便于分析和解决实际问题。对任何一个可用PLS方法处理的多变量建模问题,都可用PLS变量筛选法简化模型。对于非线性相关关系的建模问题,将PLS变量筛选法与变量扩维相结合,得到的模型简单、信息量强,更符合实际情况。