统计学习中回归与正则化谱聚类算法的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yan2541023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在本文中,我们主要研究了统计学习中的回归和谱聚类算法。主要贡献可分为以下三个部分。首先,研究回归问题。在样本无界的背景下,我们考虑了最小二乘正则化学习算法。这部分的工作主要是利用积分算子方法,得到了很好的学习算法收敛阶。主要结果依赖两个重要假设,一个是关于无界输出样本的矩假设,另一个是与边缘分布相关的函数空间假设。在适当的条件下,所得结果是与样本有界情况下是一致的。其次,我们研究了谱聚类算法。类似的理论研究近几年已经有很多。我们的创新之处在于:我们在一个依赖样本的有限维假设空间内考虑,这样很自然的能够引入统计上著名的LASSO思想,即施加正则化项-L1罚。由核函数张成的样本依赖假设空间能够为学习过程提供很好的灵活性。可是同时也带来了技术处理和理论分析上的困难。主要困难在于假设空间不仅依赖样本,而且还有两个约束条件,以前所有的处理技巧都不能直接拿来应用。本文从逼近论角度研究,通过合理的假设克服了上述困难。这里主要利用的是局部多项式再生公式和构造化的处理手段。谱聚类算法的一致性主要取决于以下几个条件:输入空间的结构,未知的分布,核函数以及目标函数的光滑性。最后。我们以逼近论的角度去研究学习理论中的回归问题。根据一些逼近论中的正定算子,设计了一系列非优化的学习器。这样的学习器是由一般的核函数经过放缩变换,然后作用于样本点产生的。他们与经典的逼近算子的区别主要在于:传统的逼近算子依赖于确定的节点或节点满足很好的形状,而学习器的样本是随机的。在回归的背景下我们研究了这样学习器的有效性,并且给出了他们的泛化能力。泛化能力主要依赖于回归函数的光滑性,随机样本的方差以及核函数中心与规则节点的距离。误差分析由样本误差和逼近误差两部分组成。我们详尽的阐述了两个典型的例子,一个是核函数由连续型伯恩斯坦基构成的,另一个是关于杰克森算子的。获得了相应的具体的学习阶。
其他文献
闽粤两省是海洋大省,其沿海区域的经济合作极为紧密,金融发展与创新成为驱动该地区经济发展的中坚力量。文章运用带有时滞效应的β收敛模型,对闽粤两省20个沿海城市的区域金
农民工市民化是我国城镇化建设的重要内容之一,从经济层面来说,农民工向市民转化一直以来难以解决的主要问题是农民工市民化成本问题,因此,进行成本测算、寻求成本问题、合理
随着经济、社会发展,人类文明逐渐告别刀耕火种的野蛮的、血腥的原始社会逐步向现代化进程中迈进。尤其在西方,由于第三次科技革命的兴起与发展,使人们的生活发生翻天覆地的
某锡矿产状复杂,厚度倾斜及走向皆不稳定,也极不规则,矿体厚度由几公寸至几十公尺。其中又以厚矿体(3~15公尺)最多占64%,极厚矿体(大于15公尺)占27%,矿体倾斜度从水平至急倾
【正】 1919年五月四日爆发的五四运动,是全国性的反对帝国主义和封建主义的民主革命运动。上海人民热烈响应北京学生示威运动的号召,和全国人民在一起,坚持了五四运动的革命
通过对福建传统文化资源及创意产业相关资源的分析与梳理,探讨利用福建民间工艺品等传统文化资源为闽台文化创意产业服务的新思路;阐明将现代设计与福建传统工艺技艺文化结合形
近二十年来,多智能体系统及其分布式控制得到了极大的关注,现已广泛应用于无人机编队、移动传感器网络、智能电网等领域。一致性是多智能体系统(分布式)控制的基本问题,它意
少数民族题材电影在新中国电影史上占据着重要而独特的位置,之前的相关研究主要集中对影片的艺术特征及文化价值展开分析,本文借鉴大众文化理论以及政治经济学、社会学、传播
<正>小学生的思维处在由具体形象到抽象逻辑的过渡阶段。四则混合运算是小学数学教学中的一个关键环节,有利于学生智力和思维水平的发展。本文结合以往教学经验及反思,针对学
水体富营养化已成为中国乃至世界范围内严重的水污染问题,对水生生态系统和人类健康造成了巨大威胁。减少污水处理厂的点源污染以及农业生产带来的面源污染是防止水体富营养