论文部分内容阅读
在本文中,我们主要研究了统计学习中的回归和谱聚类算法。主要贡献可分为以下三个部分。首先,研究回归问题。在样本无界的背景下,我们考虑了最小二乘正则化学习算法。这部分的工作主要是利用积分算子方法,得到了很好的学习算法收敛阶。主要结果依赖两个重要假设,一个是关于无界输出样本的矩假设,另一个是与边缘分布相关的函数空间假设。在适当的条件下,所得结果是与样本有界情况下是一致的。其次,我们研究了谱聚类算法。类似的理论研究近几年已经有很多。我们的创新之处在于:我们在一个依赖样本的有限维假设空间内考虑,这样很自然的能够引入统计上著名的LASSO思想,即施加正则化项-L1罚。由核函数张成的样本依赖假设空间能够为学习过程提供很好的灵活性。可是同时也带来了技术处理和理论分析上的困难。主要困难在于假设空间不仅依赖样本,而且还有两个约束条件,以前所有的处理技巧都不能直接拿来应用。本文从逼近论角度研究,通过合理的假设克服了上述困难。这里主要利用的是局部多项式再生公式和构造化的处理手段。谱聚类算法的一致性主要取决于以下几个条件:输入空间的结构,未知的分布,核函数以及目标函数的光滑性。最后。我们以逼近论的角度去研究学习理论中的回归问题。根据一些逼近论中的正定算子,设计了一系列非优化的学习器。这样的学习器是由一般的核函数经过放缩变换,然后作用于样本点产生的。他们与经典的逼近算子的区别主要在于:传统的逼近算子依赖于确定的节点或节点满足很好的形状,而学习器的样本是随机的。在回归的背景下我们研究了这样学习器的有效性,并且给出了他们的泛化能力。泛化能力主要依赖于回归函数的光滑性,随机样本的方差以及核函数中心与规则节点的距离。误差分析由样本误差和逼近误差两部分组成。我们详尽的阐述了两个典型的例子,一个是核函数由连续型伯恩斯坦基构成的,另一个是关于杰克森算子的。获得了相应的具体的学习阶。