论文部分内容阅读
糖尿病风险评估问题是糖尿病预防和控制的核心问题,在减少并发症、改善健康水平、降低糖尿病预防支出等方面具有非常重要的意义。已有糖尿病风险评估方法大多基于单一模型,假设特征空间样本的估计误差具有方差不变性,忽略了采样数据中存在的异质性(异方差性)。如果能够充分发现局部空间输入-输出的映射关系,可以有效地提高糖尿病风险评估的效果。论文以具有树形结构的有限混合模型方法为基础,提出具有多监督信息表达能力的半监督高斯混合模型和基于数据分布驱动的混合专家模型,通过寻找数据的同质性划分方式,解析局部空间输入-输出变量的关联性,提高有限混合模型的准确性、可解释性和稳健性。针对异质数据下的糖尿病风险评估,有效提高了糖尿病患病个体判定、血糖状态估计和糖尿病风险分级的效果。论文的主要成果和创新点包括:(1)提出了一种软间隔混合线性专家模型,利用迭代学习方式生成最大间隔分类器和若干局部专家模型,有效地减小了远离门限函数决策边界样本的分类误差,针对糖尿病患病个体判定和空腹血糖估计,有效提升了分类和回归的准确性。采样数据一般具有不均匀性和异质性,混合模型可以利用门限函数将数据划分至不同成分内并在局部空间学习相应的专家模型,但受混合模型不同成分加权影响,会在远离门限函数分类边界处引入估计误差。为此,提出一种软间隔混合专家模型(softmargin mixture of experts,SMMo E),该方法利用广义期望最大化算法最大间隔分类器和若干局部专家模型,采用最大间隔分类的得分作为混合模型的概率加权,降低硬划分方式带来的分类误差。SMMo E利用最大间隔分类器将门限函数的分类误差限制在最大函数间隔内,使得Hinge loss零区域对应样本的输出仅由其对应成分的专家模型决定。针对远离门限函数分类边界的样本,SMMo E减小了该样本受混合模型不同成分加权影响带来的估计误差。基于非均匀采样的仿真数据进行分类实验,2009年CHNS公开数据进行糖尿病患病个体判定分类实验,以及2012年NHANES公开数据进行空腹血糖状态估计回归实验,结果表明SMMo E算法在多个任务上的效果优于多种对比算法。(2)提出了一种基于集成树约简的混合模型折中规则提取方法,利用集成树实现对软间隔混合专家模型门限函数的最富信息提取,并通过集成树约简方法,生成少量、有效的判别规则。针对糖尿病患病个体判定和空腹血糖估计,有效提高了有限混合模型在分类和回归问题中的可理解性。软间隔混合专家模型采用最大间隔分类器作为门限函数实现数据的同质性划分,但最大间隔分类器的“黑箱性”导致模型的不可理解性。为此,提出一种基于约简集成树的折中规则提取(SMMo E+IRRF)方法,该方法首先提取软间隔混合专家模型中最大间隔分类器的决策边界信息(支持向量),去除对分类边界无效的样本,减少用于规则提取的样本量;然后利用集成树提取支持向量包含的最富信息,通过对集成树的规则约简(IRRF)生成一系列具有因果逻辑的判别规则,缓解规则生成模型由于启发式学习方式容易生成冗余规则集合的问题。基于2009年CHNS数据进行糖尿病患病个体判定分类实验,2009-2014年NHANES横截面数据进行空腹血糖状态估计回归实验,结果表明SMMo E+IRRF方法可以生成少量有效的判别规则,在多个任务上的效果优于多种对比算法。(3)提出了一种自步层次混合回归方法,利用Exclusive LASSO构建自步学习正则项,使得混合模型倾向于从各成分中选择置信度高且数量平衡的样本集合,从而有效消除噪声数据的影响。针对血糖状态估计,有效降低了回归的估计误差。针对混合回归模型对噪声数据敏感、缺乏稳健性的问题,提出一种自步混合回归(self-paced mixture of regressions,SPMo R)方法,该方法首次将自步学习理论应用于混合回归模型的稳健估计研究中,SPMo R基于Exclusive LASSO构建自步学习正则项,倾向于从各成分内选择稀疏的、有竞争力的样本,避免混合模型各成分间样本选择的竞争,使得混合模型在每个成分中选择置信度高的样本,去除噪声数据影响。相对于已有稳健混合回归方法,SPMo R具有更高的灵活性,可以扩展到层次混合模型中。基于不同比例噪声的仿真数据进行回归实验,2009-2014年NHANES横截面数据进行糖化血红蛋白状态估计实验,以及2011-2014年NHANES数据进行负荷后血糖状态估计实验,结果表明SPMo R可以有效去除噪声数据,在糖尿病血糖状态估计的多个任务上的效果优于多种对比算法。(4)提出了一种融合规模约束和成对约束的半监督聚类方法,通过整合不同目标的约束信息将聚类过程转化为多目标联合优化问题。针对2型糖尿病风险分级,避免由于标签数据类别不完备问题形成的无效类别,有效提升了分级的准确性。针对标签数据类别不完备,容易形成过度不平衡聚类结果的问题,提出了一种融合规模约束和成对约束半监督聚类方法(pairwise and size constrained clustering,PSCC),该方法将不同类型的监督信息,例如约束对或规模约束,通过约束的数量信息共同惩罚高斯混合模型的协方差矩阵,将多监督信息下的半监督聚类问题定义为两目标优化问题。PSCC方法通过平衡上述两项约束信息,既提升了风险分级准确性,又避免产生空类或者只有少量样本的聚类结果。另外,提出一种新的半监督聚类初始化方法(加权KKZ算法),该方法将样本的概率密度作为权重,用于加权样本与聚类质心的距离度量方式,从样本分布的稠密区域选择具有最大最小化距离样本作为初始化聚类质心,克服KKZ算法对噪声敏感的问题。基于Iris数据进行标签数据类别不完备的仿真聚类实验,基于2009年CHNS公开数据和2001年BHPEC数据进行糖尿病风险分级实验,以及基于2001-2007年BHPEC队列数据进行不同风险发病状况验证实验,结果表明PSCC方法可有效提高聚类结果的准确性,避免无效类别的形成,在糖尿病风险分级的多个数据集上优于多种相关算法。