交叉样例选择研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:ares_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据是数字时代明显的特征,数据大规模增长使得数据处理变得异常困难,样例选择是处理海量数据的主要方法之一。样例选择的目的是去除原始数据集中的冗余样例和噪音样例,从而得到一个能够代表原数据集的小规模子集。传统的样例选择算法大多是针对某一种分类器而设计的,因此其结果往往也只适用于这种类型的分类器。此外,随着数据集规模的增长,经典的样例选择算法难于处理大规模数据集,高效率的样例选择算法,特别是针对大数据集的样例选择算法成为近几年的研究热点。本文针对较大数据集分类问题,提出了能够用于不同分类器的样例选择算法,该算法基于分治和交叉验证的思想进行样例选择。具体地,首先将数据集分为若干不相交的子集,对于每一个数据集,用其他子集训练出的分类器组成委员会,对该子集进行样例选择。针对输出为后验概率的分类器使用K‐L散度度量样例的重要性,针对其他分类器使用投票熵度量样例的重要性。当使用速度快的ELM分类器时,本文提出的算法能够快速处理较大规模的数据集。为了验证本文算法的有效性,在19个数据集上进行了实验,并与经典的样例选择算法(CNN、ENN、RNN、MCS和ICF)在时间、精度和压缩比等方面进行了实验比较。实验验证了交叉样例选择算法在多种分类器上应用的可行性,并能够快速处理较大规模的数据集,得到压缩比更高的子集。
其他文献
近几年来,云计算技术已成为IT界最热门的研究领域,它改变了企业传统的IT技术架构和开发部署模式。通过网络方式提供给用户需要的应用平台环境,快速平滑地将用户的应用迁移到云中
作为信息安全的热点研究领域之一,安全多方计算(Secure Multiparty Computation)主要研究多方合作计算问题,即分布式网络中互不信任的两个或者多个参与者合作执行某种计算任
膜计算(又称P系统)是从生命细胞的结构与功能以及组织和器官中细胞群的协作中抽象出来的计算模型。P系统是一类分布式、并行性计算模型。从结构上看,P系统有三种形式:细胞型P系统
垃圾网页是指网页制造者采用迷惑或欺骗搜索引擎的手段,使得网页在检索结果中的排名高于实际排名的行为。这种页面不仅影响搜索引擎检索的准确率和效率,也严重恶化了用户的搜
随着嵌入式技术、传感器技术、网络技术以及无线通信技术的不断发展,无线传感器网络作为一种新兴的“智能”网络受到了人们广泛的关注。无线传感器网络已经应用到了人类生产
闪存作为一种新型的非易失性固态存储器,由于其体积小、非易失、读写速度快、抗震性强以及能耗低等优良特性被广泛应用于各领域的存储产品中,尤其是近年来基于闪存的固态硬盘技
二维动画以其独特的风格深深吸引着广大爱好者和研究者,由于其具有丰富的表现力,因此也别广泛应用于娱乐、广告、教育等领域。但是,由于二维动画的制作过程十分复杂,产生的周期长
本文研究的是单帧图像的超分辨率重建问题。重点关注图像柔边重建效率和稀疏重建算法,并在改进的基础上将它们联合起来,其中柔边重建关注的是柔化边缘锯齿,稀疏重建运用字典库的
在软件系统中,有许多需要定期执行的任务。按照当前的业界通用做法,这些任务主要是通过操作系统的定时调度服务来运行的,如Unix和Linux系统的crond服务。这种方式相对简单,对小型
数据库自然语言接口(NaturalLanguageInterfacetoDatabase,NLIDB)因其简化了人机交互的过程,使用户可以用自己熟悉的语言查询数据库而广受欢迎,因而自然语言查询接口的研究具有