论文部分内容阅读
随着现代科学技术的发展,人们每天都要面对大量无法直接理解的数据。如何利用计算机来帮助我们理解和处理数据信息成了当今科学技术界的一个重要研究课题。机器学习是计算机得到广泛应用后逐渐发展起来的一门学科。它是人工智能的一个子领域,主要研究如何利用已有的经验数据设计一些算法使计算机具有从数据中学习出规律的能力。机器学习跟统计学有着重要的关系,因为这两个领域都是研究数据分析,但是又不像统计学,机器学习关注的是计算实现的算法复杂度。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。学习理论是机器学习的一个分支。它是一个跨学科的研究领域,涉及应用数学、统计、计算机科学、计算生物学和数据挖掘等学科。它的目的是通过数据学习函数的特征(例如函数值和变量)或数据结构。主要研究课题包括设计一些更有效的算法和为机器学习中已有的算法提供理论支持。在此论文中,我们研究了两个问题。首先是提出了一种新的多分类算法。我们通过Parzen窗设计了一种多分类算法,并对该算法进行了理论分析。这种Parzen窗多分类器优于通常的通过结合二分类器来构造多分类器的各种方法。因为通过结合二分类器得到多分类器的方法往往很复杂,而且对于某些区域,分类的结果往往不一致。在抽样的条件概率分布的某些正则条件和边际分布靠近边界的某些衰减性条件假设下,我们给出了额外分类误差的收敛阶。在文献中,当Parzen窗用于密度估计和回归时,逼近误差一般是在离开边界的输入空间X的内点上估计。我们的主要贡献是在数学上证明了当边界附近抽样的边际分布满足一定的衰减条件时,我们能在全输入空间上得到满意的额外分类误差的L~1范数或者C(X)范数的阶。其次,我们研究了非独立同分布抽样下的学习算法。该类算法包括最小二乘正则化回归和二分类问题。在过去的几年里,学术界对独立同分布下的正则化回归算法的理论分析有了重大进展。但是,无论独立或同分布都是一个相当严格的假设。在现实的数据分析中,如Shannon抽样,randomized抽样或者弱相依抽样都不满足这样的条件。我们的设置不要求独立或者同分布条件。在抽样的边际分布序列满足在H(o|¨)lder空间的对偶空间中指数收敛的条件,和抽样序列满足多项式弱相依条件下,我们得到了和假设空间容量无关的逼近阶。而且当弱相依抽样的条件弱到接近独立抽样的时候,我们的逼近阶和独立同分布抽样下的逼近阶是一致的。对于非同分布下的二分类算法,我们也得出了满意的额外分类误差的与假设空间容量有关的逼近阶。