论文部分内容阅读
在互联网蓬勃发展的年代,用户可以随时随地上传任何图像。而且随着智能机的普及和各种社交平台的推广,图像分享已成为当下潮流。由此可见,图像数据将作为整个互联网信息的重要组成部分,有效理解这些图像内容能够有助于发现用户行为模式,挖掘新知识,在下一代互联网竞争中取得制高点。图像分类作为理解图像内容的重要手段之一,在金融、邮政、公共安全、交通等领域都有成功的应用,其重要性不言而喻。对于图像特征提取算子和分类器的研究一直是图像分类研究中的重点。特征提取方法和分类器相结合能够对原始图像进行有效的降维处理。而且在有大量样本的前提下,通过训练样本调整特征提取算子和分类器模型的参数能够使分类结果接近最优解。目前图像分类研究存在的主要问题在于:1.对于特征提取来说,人为选择特定的特征提取算子具有一定的不确定性,而且所提取的图像特征没有经过筛选,在一定程度上来说,所提取的部分图像特征也可能干扰分类精度;2.对于分类器来说,要获得较好的分类准确率通常需要较长的训练时间,如何平衡训练时间和识别准确率之间的关系,在使训练时间尽可能短的情况下提高分类准确率是广大研究者正在考虑的问题。极限学习机是一种训练速度快的分类模型,而且泛化能力强,是解决分类问题的一个较好模型。本文主要的创新点在于提出了一种结合HOG和随机森林(Random Forest)的极限学习机分类模型。通过统计原始图像的梯度或边缘方向,对图像进行HOG特征提取,同时引入随机森林方法,对HOG特征的各个维度进行重要性度量,进一步剔除重要性低的冗余信息。最终将经过筛选的特征作为极限学习机网络的输入,通过极限学习机进行图像分类。我们在MNIST和USPS数据集上进行了实验,实验结果表明本文方法在训练时间上优于多层极限学习机模型,在准确率上优于传统的ELM、HOG-ELM和多层ELM。