论文部分内容阅读
随着老龄化时代的提前到来,老年人的健康问题引起了社会越来越多的关注,其中高血压等非传染性疾病已经成为威胁老年人健康的首要原因。为了降低老龄人口中高血压的发病率,近年来高血压的影响因素被广泛研究。临床医学和公共卫生领域拥有着各种各样与高血压问题相关的数据,以往对高血压影响因素的研究大部分是借用传统统计学方法,然而随着大数据时代的来临,传统统计学方法在高维数据建模中存在着较多的局限性;与此同时,机器学习算法开始兴起,随机森林等算法在各个领域中被广泛应用,但机器学习面对高维数据建模时也存在着一些困难,因而大量的特征选择方法由此诞生。特征选择常常被看作高维数据的必备武器,如何设计更好的特征选择方案以更好的处理高维数据问题值得探索。在这样的背景下,本研究提出了基于多目标优化的组合式特征选择方法。通常在组合式特征选择方法研究中,第一阶段特征选择数目的确定是人为设置的。本研究试图引入一个权衡指标,综合考虑特征选择法的稳定性和机器学习算法的拟合性能,给出第一阶段特征选择数目的筛选标准;第二阶段,多目标遗传算法利用第一阶段提供的特征子集作为初始种群,进一步进行特征选择,并同时优化特征子集的数目和机器学习算法的拟合性能。我们结合中国健康与养老追踪调查数据做实证分析,以预测高血压的社会影响因素为目标,验证基于多目标优化的组合式特征选择法的有效性以及引入权衡指标的合理性。实验运用四种不同的特征选择方法分别与多目标遗传算法组合,建立四种基于多目标优化的组合式特征选择方案。实验主要表明,组合式特征选择法比仅使用单一的特征选择法效果更好,即预测误差更小、特征子集的数目更少;验证了基于多目标优化的组合式特征选择方法的有效性以及第一阶段中引入权衡指标有一定的科学性及合理性。我们相信,组合式特征选择方法中权衡指标的引入,可以为今后组合式特征选择领域的研究提供一点探索思路。此外,该方法不仅能在预测高血压影响因素中使用,也可以在其他实际应用领域做出更多的尝试。