基于特征空间变换的半监督学习

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:smileye1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习旨在仅有少量标注数据集和大量未标注数据集的基础上获得一个良好的学习器。其中,协同训练算法是半监督学习领域最重要的算法之一。该算法的大体思想是先利用极少的训练数据分别在两个特征集合上训练两个分类器,然后每个分类器对每个未标记数据进行分类,并从中挑选出置信度最高的p个正例数据和n个负例数据作为新的训练数据加到对方分类器的训练数据集中,使得对方分类器根据新训练集进行更新。根据理论分析,上述过程不断迭代重复能使得分类器逐渐由弱变强。然而协同训练算法的局限性在于它需要两个在充分训练集下足够优秀,且相互独立的特征集。而在现实世界中,满足如此两个苛刻约束的问题十分罕见。针对协同训练的局限性,本文做了比较有效的工作以满足两个约束条件。它的主要思路是将源数据集经过K-L变换映射到一个各维互相正交的正交空间中,然后应用某种划分算法将转换后的数据集特征集合划分成两个满足协同训练约束条件的高质量的子集合,本章介绍了两种特征集合的划分方法,分别是:贪心的划分算法和能量差驱动方法。为了衡量子集合的质量,我们定义了一个基于特征值的能量函数。试验结果表明该方法取得了良好的分类效果。此外,注意到协同训练的研究主要集中在分类问题上,本文又提出了一种新的协同训练的回归算法(SSRFT)。在这种算法中,除了利用已有的基于特征空间变换的划分方法得到两个满足约束条件的特征集外,针对回归问题中需要两个差异性较大的回归器的约束条件,利用了两个迥异的回归器。同时,将此算法应用到了信息检索领域取得了较理想的效果。实验结果证明基于SSRFT的web文档归类方法比已有的半监督回归方法COREG效果更好,甚至同基于足够训练集的支持向量回归的web文档归类方法相当。
其他文献
档案计算机管理是指在档案管理过程中,以计算机及其网络作为工具或基本工作环境自动或半自动地代替人从事工作。其本质是用计算机进行的档案信息处理或称档案数据处理。一、
一、黄杨木雕的发展源流(一)中国木雕艺术我国木雕艺术源远流长,可追溯到新石器时期。距今7千多年前的浙江余姚河姆渡文化,已出现木雕鱼。秦汉两代木雕工艺趋于成熟,施彩木
电气传动技术是推动工业自动化发展的关键技术之一,由于直流调速系统维护困难和难以实现高速驱动等缺点,高性能的交流调速系统应运而生,逐渐成为电气传动控制的主要发展方向。由
移动Ad Hoc网络(MANET)以其灵活、可自我配置及易于实施而在未来无线及移动通信中具有重要地位。在可预见的未来,推动网络技术发展的一个关键就是满足用户的各种个性化需求,
图像检索作为多媒体信息检索技术的一个主要组成部分,在信息检索领域占有举足轻重的地位。因此图像检索得到了快速的发展,并产生了许多关于图像检索的算法。根据不同的实际问题
软测量技术是先进控制技术的重要组成部分,也一直是过程控制领域研究的热点之一。其能够提升企业对产品质量的直接监控,并通过先进控制与优化技术实现降低生产成本的作用,提
党的十六大提出,21世纪头20年,是我国加快发展的战略机遇期,我们要集中力量,全面建设小康社会。十六届四中全会进一步提出了建设社会主义和谐社会的目标,要求人口发展与经济
盲信号处理(BSP)是二十世纪九十年代发展起来的一个研究领域。盲源分离(BSS)是盲信号处理的一个重要的研究课题,它具有坚实的理论基础和广泛的应用前景。独立分量分析(ICA)是
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
机器人自主导航是移动机器人研究领域中的一个核心技术和难点问题,涉及到机器人的感知、规划、执行等诸多方面。随着机器人应用范围深度和广度的延拓以及人工智能科学的发展,机