论文部分内容阅读
近红外光谱分析技术具有快速现场检测、准确、不破坏等优点,非常适合于药品分析。不同于一般分类问题,真假药鉴别中存在类不平衡与代价敏感性问题。随着精密分析仪器的广泛使用,产生了高维、海量药品数据,而大部分分类算法仍采用单线程方式实现,已无法满足现场快速建模的需求。综上所述,本文研究主要针对真假药鉴别所具有的类不平衡、代价敏感的应用特点以及大量样本的快速建模需求。 首先引入尺度化凸壳最大间隔分类方法(SCHMMC)解决真假药鉴别中所具有的类不平衡与代价敏感问题,并引入布谷鸟搜索(CS)算法对 SCHMMC进行参数寻优,结合两者形成CS-SCHMMC。 其次,在研究尺度化凸壳最大间隔分类方法的基础上,针对大规模数据样本的建模提出一种基于CUDA的GPU并行SCHMMC算法:GPU-SCH。根据训练过程中各个计算任务的特点,对训练过程进行任务划分,结合 GPU与 CPU的特点,给出GPU-SCH的两种并行模型。通过UCI数据集分别进行稳定性、准确性、加速性能实验测试,结果表明并行算法在不损失原算法性能的基础上,在大数据样本下,获得了更高的性能,最高加速比可达18.4倍。实验最后对两种并行模型作出性能对比分析。 接着,在研究SCHMMC参数与核函数参数选择优化的基础上,针对CS算法在求解复杂、大规模数据优化问题时计算时间过长的问题提出一种基于 CUDA的并行布谷鸟搜索算法:GPU-CS。该并行算法通过对标准 CS算法的四个阶段计算任务进行分解,分别以四个独立的并行GPU核函数实现,并结合不同的优化问题,给出算法的两种并行策略。最后在四个标准测试函数上的仿真实验表明,并行CS算法在求解收敛性与原标准算法一致的前提下,获得了更高效的求解性能,最高加速比可达96.9倍。实验的最后给出了两种并行策略在不同实验设置下的性能分析比较。 最后,给出GPU-CS对GPU-SCH进行参数选择优化的方法,并结合实际应用,将其应用于某药厂琥乙红霉素片 NIR光谱建模及分析,分别对类不平衡问题与代价问题进行实验分析测试,验证了算法的有效性。解决了真假药品鉴别中类不平衡与代价敏感问题,实现了近红外光谱药品鉴别中大量药品鉴别模型与复杂模型的快速构建需求。