论文部分内容阅读
很多工业过程中,一部分需要严格控制、与产品质量密切相关的关键指标无法通过硬件设备在线测量,影响了后续的过程监测、质量控制和系统优化。由于这些生产过程内在的机理复杂、非线性和时变特性强等特性,通常采用基于数据驱动的软测量建模方法在线预报相关指标。另一方面,针对机理未知疾病的数据驱动的辅助诊断方法可被看做是软测量建模方法在医学领域的应用。 工业生产与辅助诊断过程建模中的一个本质难题是小样本情况,例如间歇过程与半间歇过程的在线建模需要使用当前批次生产的相关指标数据,这些指标由于成本等原因难以大量获得。而辅助诊断过程中,病理未知的病例样本量通常较少。另一方面,不包括待预测指标的无标签样本往往大量存在。研究如何利用可廉价获得的无标签样本进行辅助建模具有非常大的现实意义,近些年来机器学习领域针对此问题的半监督学习理论得到发展,使得解决这一难题成为可能。 本文以半监督学习建模为切入点,针对不同工业现场及辅助诊断应用需求,按照在线数据非线性建模、在线离线数据混合非线性建模、离线数据线性建模、离线数据直推式非线性建模的顺序展开,研究提出了相应的建模算法,进行了理论分析、仿真研究及实际应用,主要创新性研究工作包括: (1)针对间歇生产过程中无标签生产过程数据充足而相应质量指标测量代价较高,以及无标签样本对质量指标受时间影响权重不同的问题,提出了一种半监督加权递推核回归算法,提出时序相关的半监督加权策略提高了软测量模型的精确度,引入前向递增与后向递减学习机制控制模型的复杂度,推导了在线更新软测量模型的递推公式以提高其适用性。以青霉素发酵为例,通过基准仿真平台实验结果验证了算法的有效性,讨论了不同权重下算法的性能及无标签样本对模型的贡献。 (2)针对半间歇生产过程中,全局学习建模方法由于过期样本的负面影响模型不准确,在线学习建模方法需要大量当前批次生产的有标签数据而实用性不强的问题,提出了一种半监督混合局部核回归方法,提出了无标签样本与有标签样本的时间窗序列数据概念并以此为整体进行建模提高了软测量模型的精确度,选择与待预测样本相似的历史与在线数据进行局部建模控制模型的复杂度,推导了在线更新软测量模型的递推公式以提高其适用性。以橡胶密炼生产过程门尼黏度软测量为例,基于智能密炼系统中现实数据的实验结果验证了算法的有效性,讨论了使用无标签样本辅助建模对模型的改进。 (3)针对川崎病疑似患者中存在大量不完全川崎病病例的问题,提出了半监督线性判别分级方法,通过提出的导出集对病人进行诊断分级以给出更高真阳性率、利用不完全川崎病样本修正分级阈值以获得更准确的模型,并基于此方法实现了川崎病在线辅助诊断平台。实验结果给出了不同量无标签样本对模型的贡献度,验证了算法较传统方法在性能上的改进。 (4)针对坏死性小肠结肠炎贝尔分期过程人工判断耗时耗力的问题以及应用目标为辅助诊断结果而非训练分类器的现状,提出了直推式支持向量机集成学习方法,提出无标签样本信息度过滤贡献较小的样本降低算法迭代次数,引入集成学习框架充分利用无标签样本进行半监督直推式建模以获得更稳定与准确的分类结果。通过与经典的支持向量机算法的实验结果对比,验证了算法的有效性。 最后,在总结全文的基础上,对未来的研究作出了新的展望。