关于模型选择问题的子空间信息准则

来源 :湖北大学 | 被引量 : 0次 | 上传用户:alggg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,模型选择问题引起人们很大的兴趣.在监督学习中,模型选择的好坏直接影响学习算法的推广能力.如果所选择的模型过于复杂,就会出现过学习(overfitting)现象;相反,如果模型过于简单,则会出现欠学习(underfitting)现象. 对于小规模样本集(实际问题总是小规模样本集的问题),监督学习的目标是在给定的函数集中挑选一个最优的逼近函数,从而最小化推广误差.对此,Vapnik在文献[53]中提出了选择这样函数集的原则,即结构风险最小化(SRM)原则.该原则为给定函数集提供一个容许结构,然后在整个给定的结构元素上找到最小化保证风险的函数. 上世纪下半叶,人们从各种观点出发,提出了很多模型选择原则.其中以Akaike等人提出的两种模型选择原则较为流行,Akaike信息准则(AIC)[17]和Bayesian信息准则(BIC)[18].后来,从泛函分析的角度出发,Sugiyama和Ogawa又提出了一种新的模型选择准则,即子空间信息准则(SIC)[27].SIC所考虑的训练样本是基于[0,1]上样本点的一个均匀分布,零均值和不同方差值的正态分布噪声得到的.它用所选取的函数与真实函数之间的均方差来估计性能.SIC的优势在于它是推广误差的一种无偏估计,实验证明依SIC思想选择的模型得到的学习算法具有很好的推广能力. 本文分五个部分讨论了模型选择的子空间信息准则问题. 第一部分,主要介绍了学习问题及本文的研究背景. 第二部分,首先介绍模型的概念,接着回顾一些经典的模型选择原则,主要介绍的有三个:结构风险最小化原则(SRM),Akaike信息准则(AIC)和Bayesian信息准则(BIC). 第三部分,讨论本文的主要内容,即解决模型选择问题的子空间信息准则(SIC).在介绍SIC的定义以后,把该方法推广到无限维的假设空间上;并且还对SIC进行扰动分析,最后对SIC的一些不足之处进行改善,从而提高该方法的精度. 第四部分,我们将SIC应用到学习问题的一些重要模型中,这其中包括在再生核Hilbert空间上,应用SIC选择逼近函数中模型参数.在找到相关的无偏学习算子后,证明了用于选择模型的SIC是关于学习结果的推广误差的一种无偏估计,同时说明学习算法有较好的推广能力.进一步探讨了SIC的应用前景. 第五部分,我们对SIC和解决模型选择问题的其他方法进行了比较,同时对本文所介绍的子空间信息准则(SIC)的前景进行估计和分析.
其他文献
供应链是在世界经济的一体化发展和市场竞争不断加剧的大趋势下产生的能创造竞争优势的一种手段。现在,它已成为企业增强自身竞争力的重要方法。因此,如何建立和求解供应链模型,以定量的手段对供应链中的决策提供支持,是一项非常具有研究价值的课题。由于供应链问题的多层次性和多目标性,使得有关供应链模型的研究多停留在定性研究之上,缺少依据数学模型进行的定量描述,以及对已有复杂数学模型缺乏有效的求解方法。而多层多目
波导计算在集成光学的研究中具有重要作用。针对更多实际应用的周期非均匀的波导结构,本文发展了一些基于DtN映射的M算子方法和逆基本解算子方法(IFS)。与传统的算法相比,这些
经过一个世纪的发展,生物数学模型的研究得到了广泛的应用.在二十一世纪,有关生物数学的研究显得越发重要,生物数学与其他学科的交叉领域将成为主要的研究对象.与确定性生物数学
本文利用Ditzian-Totik光滑模讨论了Szasz-Kantorovich算子Ln(f)的迭代布尔和⊕тLn(f)对Lp[0,+∞)(1≤p≤+∞)中的函数的逼近正定理及等价定理.主要结果如下:设f∈Lp[0,+∞),1≤
数据挖掘的目的是从海量的数据中提取人们感兴趣的,有价值的知识和重要的信息,聚类分析则是数据挖掘的一个重要研究领域。它在商业、生物、医学、地质、Web文档等方面都有重要
由收敛半径为R2的解析函数g(z)=∞Σn=0anzn(an≥0,n=0,1,2…)所生成的再生解析Hilbert空间H2g(DR)是一类非常广泛的解析函数空间。它包含了很多经典的解析函数空间:Hardy空间H2(