基于ELM的主动学习的研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:yaomingjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中存在着大量无类标的数据,如医疗图像数据、网页数据、视频数据等。在大数据时代,这种情况更加突出。标注这些无类标的数据,需要付出巨大的代价。主动学习是解决这一问题的有效手段,是近几年机器学习和数据挖掘领域中的研究热点之一。本文在分类的框架下,研究了基于在线序列极限学习机的主动学习问题。本文的贡献主要包括以下两点:(1)研究了随机权分布对极限学习机性能影响,得出了如下结论:(a1)对于不同的问题或不同的数据集,服从[-1,1]区间均匀分布的随机权不一定是最优的选择;(a2)用服从均匀分布和高斯分布的随机数初始化输入层权值和隐含层结点的偏置得到的测试精度没有本质的区别。(2)提出了一种基于在线序列极限学习机的主动学习算法。提出的算法具有三个优点:(b1)利用在线序列极限学习机增量学习的特点,可显著提高学习系统的效率;(b2)利用样例熵作为启发式度量无类标样例的重要性,这种度量能充分刻画样例对分类贡献的信息量;(b3)用K-近邻分类器作为Oracle标注选出的无类标样例的类别,K-近邻Oracle独立于评价样例重要性的分类器。实验结果显示,本文提出的算法具有学习速度快,标注准确的特点。
其他文献
随着数字图像处理与计算机视觉的发展,数字图像处理技术已被广泛应用到各个领域。其中,数字图像处理与医学的结合已越来越受到重视。斜视检测技术是一种通过处理和分析用户眼球
随着Android手机的普及,人们对Android手机游戏的需求量越来越大。由于玩家对手机游戏品质的要求越来越高,游戏画质的精美程度已经不再是判断一款游戏好坏的唯一标准,游戏中的人
数学表达式中包含数字、运算符、字母等多种符号,加之结构复杂多样,为实现其索引与检索带来传统全文检索技术所不曾有过的困难。本文通过对数学表达式中符号间相互关系的分析
在科学计算与工程领域中,将计算问题离散之后,往往会得到大型稀疏线性方程组。线性方程组的求解占用了整个问题计算的很大部分时间,在油藏模拟中这一比例高达80%。因此快速高效地
车牌的定位与字符分割算法研究,在智能交通领域的车牌识别系统中占据十分重要的地位。该领域研究现有的算法针对特定环境下拍摄的图像基本都能够实现车牌的粗略定位。但是当拍
面向数学检索对含有数学内容的科技文献资料收集与整理的特殊需求,针对中文印刷文献图像中数学公式定位的方法展开研究。首先,通过定义能够反映连通区域游程变化的EEN(Edge t
随着计算机信息技术的迅猛发展,企业信息化建设事业得到了进一步提升,企业建立了众多信息系统以支撑企业的业务运营及管理,以满足市场发展需求。然而企业各业务系统往往都是基于
增强现实(Augment Reality,AR),是一种将虚拟信息准确叠加到真实物理世界中,以达到现实增强效果的新兴人机交互技术。该技术可以充分利用特定设备中集成的摄像机、GPS、传感器等
近年来随着互联网的飞速发展,使得互联网用户的需求越来越多,一方面促使了P2P应用类型的多样化,另一方面也造成P2P流量连年增加。由于P2P的点对点传输特性使得每个P2P节点既是下
移动Ad Hoc网络是一组带有无线收发装置的移动终端组成的无中心自组织的临时性自治系统;它是利用多跳中继而不依赖于任何固定设施的无线多跳网络,组网快速灵活、分布式运行,抗