论文部分内容阅读
在大数据时代中,为了从大量高维数据中挖掘出有用信息,变量选择已成为众多专家学者的首选。变量选择模型的结果应该具有稀疏性,传统的模型选择方法难以满足要求,Lasso等一系列惩罚正则化方法为高维数据的处理提供了一条可行途径。本文对Lasso罚模型进行了简单介绍,而Lasso罚模型是在单个变量的基础上进行变量选择,它不具备处理连续变量数据模型的优势。针对其局限性,本文重点介绍了融合Lasso罚模型,并对其相关理论和应用展开进一步研究。首先,介绍了融合Lasso罚模型的基本原理,并采用线性ADMM(LADMM)算法对融合Lasso罚模型进行求解,并通过结肠肿瘤数据集和白血病患者数据集说明与现有算法相比,线性ADMM算法可以用较少的运行时间获得较低的误差。其次,用基本融合Lasso定义式逼近一维和高维信号分别得到了一维融合Lasso信号近似和广义融合Lasso信号近似,并对其算法进行了推导。通过将一维融合Lasso信号近似应用到比较基因组杂交数据实验中,发现其与传统方法相比更能快速检测出DNA拷贝数目的增益和损失;而广义融合Lasso信号近似更适合处理二维数据的情况,将广义融合Lasso信号近似应用到灰度图像去噪上,发现其取得了良好的去噪效果。最后,本文将融合Lasso罚模型推广到一个组结构中发展为组融合Lasso罚模型,将融合Lasso罚模型中的融合罚(TV罚)推广为组总变差(GTV)模型,并阐述了它们的基本原理,且对他们的求解方法进行了推导。将组融合Lasso罚模型应用到仿真实验中,实验证明与Lasso罚模型,组Lasso罚模型相比,融合Lasso罚模型更容易检测数据的潜在结构并建立模型捕捉它;将组总变差模型应用到彩色图像去噪中,结果表明,无论是在视觉效果上还是在峰值信噪比(PSNR)结果上,组总变差模型都是所比较方法中去噪效果更优的。