论文部分内容阅读
因子分解机(FM)是最近被提出的主要用于解决大规模稀疏数据特征组合问题的算法,其本质是二阶多项式模型。得益于对交叉项的分解,FM能从稀疏数据中学到数据中隐藏的变量间相互关系。因此,FM比一般的多项式模型在面对稀疏数据时有更强的表达能力。本文立足于基本的FM模型,对其进行了充分的拓展研究和应用,具体成果如下:1)有序回归(OR)是一种特殊的机器学习范式,当类标号是有序时,有序回归能很好地利用有序的先验信息做分类。目前已经有很多方法被提出来用于解决有序回归问题,但是当前的方法很少去考虑有序问题中数据的内在结构问题,尤其是变量之间的交叉关系。因此,这些模型在一定程度上缺少可解释性。我们提出了新的基于因子分解机的有序回归方法:结合层次稀疏的有序因子分解机(OFMHS)。该算法将因子分解机与层次稀疏的特性结合起来去探索有序任务中变量之间的层次稀疏结构。我们通过对目标函数添加相关惩罚项实现二阶特征系数的层次稀疏结构,同时添加有序约束以利用有序信息。实验结果表明OFMHS不仅取得了与当前最优方法可比的分类效果,还能够恢复出特征之间的二阶层次稀疏结构,从而使得模型具有可解释性。2)虽然FM在推荐系统领域已获得了应用,但FM本身并未显式考虑变量的稀疏性。因此,FM的二阶特征结构使其特征选择时应当满足这样一种性质,即涉及同一个特征的线性项和二阶项要么同时被选要么同时不被选,当该特征是噪音时,应当同时不被选,而当该特征是重要变量时,应当同时被选。考虑到这种结构特性,本章提出了一种基于稀疏组Lasso的因子分解机(SGL-FM)算法,通过添加稀疏组Lasso的正则项,不仅实现了组间稀疏,还实现了组内稀疏。从另一个角度看,组内稀疏也相当于对因子分解的维度k进行了控制,使其能根据数据的不同而自适应地调整维度k。实验结果表明,本文提出的方法在保证了相当精度甚至更优精度的情况下,获得了比FM更稀疏的模型。3)FM只能对特征间二阶关系建模。高阶因子分解机(HOFM)能对特征间更高阶关系建模。而且,HOFM应当具有与FM一样的结构稀疏特性:关于同一个特征的线性项和高阶项同时弃选或同时选择。基于此,本文又提出了稀疏化的高阶因子分解机方法并在推荐系统数据集上验证了该方法的有效性。