统计学习算法:多分类及非独立同分布抽样下的回归

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lijia6685621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科学技术的发展,人们每天都要面对大量无法直接理解的数据。如何利用计算机来帮助我们理解和处理数据信息成了当今科学技术界的一个重要研究课题。机器学习是计算机得到广泛应用后逐渐发展起来的一门学科。它是人工智能的一个子领域,主要研究如何利用已有的经验数据设计一些算法使计算机具有从数据中学习出规律的能力。机器学习跟统计学有着重要的关系,因为这两个领域都是研究数据分析,但是又不像统计学,机器学习关注的是计算实现的算法复杂度。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。学习理论是机器学习的一个分支。它是一个跨学科的研究领域,涉及应用数学、统计、计算机科学、计算生物学和数据挖掘等学科。它的目的是通过数据学习函数的特征(例如函数值和变量)或数据结构。主要研究课题包括设计一些更有效的算法和为机器学习中已有的算法提供理论支持。在此论文中,我们研究了两个问题。首先是提出了一种新的多分类算法。我们通过Parzen窗设计了一种多分类算法,并对该算法进行了理论分析。这种Parzen窗多分类器优于通常的通过结合二分类器来构造多分类器的各种方法。因为通过结合二分类器得到多分类器的方法往往很复杂,而且对于某些区域,分类的结果往往不一致。在抽样的条件概率分布的某些正则条件和边际分布靠近边界的某些衰减性条件假设下,我们给出了额外分类误差的收敛阶。在文献中,当Parzen窗用于密度估计和回归时,逼近误差一般是在离开边界的输入空间X的内点上估计。我们的主要贡献是在数学上证明了当边界附近抽样的边际分布满足一定的衰减条件时,我们能在全输入空间上得到满意的额外分类误差的L~1范数或者C(X)范数的阶。其次,我们研究了非独立同分布抽样下的学习算法。该类算法包括最小二乘正则化回归和二分类问题。在过去的几年里,学术界对独立同分布下的正则化回归算法的理论分析有了重大进展。但是,无论独立或同分布都是一个相当严格的假设。在现实的数据分析中,如Shannon抽样,randomized抽样或者弱相依抽样都不满足这样的条件。我们的设置不要求独立或者同分布条件。在抽样的边际分布序列满足在H(o|¨)lder空间的对偶空间中指数收敛的条件,和抽样序列满足多项式弱相依条件下,我们得到了和假设空间容量无关的逼近阶。而且当弱相依抽样的条件弱到接近独立抽样的时候,我们的逼近阶和独立同分布抽样下的逼近阶是一致的。对于非同分布下的二分类算法,我们也得出了满意的额外分类误差的与假设空间容量有关的逼近阶。
其他文献
胸椎间盘突出症比较少见,临床发病率仅为椎间盘突出的0.15%~0.80%,临床症状、体征往往不典型,容易误诊。在诊断确立后,如症状、体征未见缓解或进行性加重,必须行手术治疗。手术的危险性
目的观察研究自拟中药胃肠黏膜保护粉治疗消化性溃疡的临床疗效.方法应用中药胃肠黏膜保护粉治疗消化性溃疡300例,与西药雷尼替丁治疗的150例对照比较.服药42 d后判定近期疗
阻塞性睡眠呼吸暂停低通气综合征(OSAHS)是一种常见的具有一定潜在危险的疾病.它是在睡眠过程中有多种原因导致的上呼吸道狭窄或阻塞引起的反复发作的呼吸浅漫或暂停,导致反
剖宫产术后硬膜外自控镇痛(PCEA)近年来国内外已广泛应用于术后镇痛,方法简便,安全有效.我院对剖宫产术后病人应用PCEA的情况进行了系统观察,报告如下.
架上绘画是在画架上绘制的画的总称。架上绘画的产生是绘画功能、材料、技巧、形式、教学方法和美学意义上的一次革命性转折。伴随着一个全新的技术和媒介发展的新时代,架上
<正>喉癌是头颈部肿瘤中常见的恶性肿瘤,其中60%为早期声门型癌。临床上传统治疗早期喉癌的治疗方法有多种方式,但是主要以手术治疗[1],并且手术之前一般先行气管切开,然后再
我国社区教育经过20多年的发展,取得了一定的成就。但在政府参与社区教育的层面上,还存在不少问题。政府的职能定位不清,体制和机制尚待完善,法制化建设滞后,发展和推动上的