论文部分内容阅读
经典逻辑回归使用最大似然方法来估计模型,在面对p?9)的高维问题时,计算方法失灵。为了得到可解释的精确模型,必须提出能够有效选择重要影响变量的方法。在一些工程和科学应用中,预测变量存在分组情况。现有方法可以根据变量已知的分组情况进行变量选择,在剔除不重要变量的同时,对重要变量的影响进行估计,取得了较好效果。但是在大多数问题中,我们无法预先得知分组信息,因此我们希望能够突破分组已知这一要求限制。在线性回归下,已有聚类弹性网方法,能够通过变量之间的相关性和与响应变量的相关性,从数据中推断出特征聚类,针对未知分组的情况进行变量选择。本文结合线性回归下聚类弹性网方法的思想,提出了逻辑回归下的聚类弹性网方法,使得在逻辑回归存在未知分组的情况下,可以从数据本身中估计出组或者聚类信息,实现逻辑回归下对于分组未知情况变量和分组的选择。该方法的主要思想在于,对回归系数进行惩罚的同时,引入了一个新的聚类惩罚项,使得一个聚类内的系数有选择地向彼此收缩,而不是向原点收缩。本文还提出了相应的算法,并用数据模拟了它的表现以及和其他方法的对比。