统计学习与人工神经网络分类模型对比

来源 :电脑迷·上旬刊 | 被引量 : 0次 | 上传用户:Cena0723
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:統计学习方法和人工神经网络都是在数据分类任务中的使用的模型。本文从技术的角度上总结分析这些模型的相同点与不同点,提供对这些模型分类性能的客观分析。最后本文对如何更好地提升统计学习和人工神经网络的分类性能进行分析总结。
  关键词:机器学习;神经网络;人工智能
  1 引言
  预测模型在各种领域被用于分析和预测。预测模型都是从真实的数据样本中建立的,这些样本数据可以根据一系列规则进行预处理和转格式,普遍用于基于知识的专家系统,或者作为统计和机器学习的训练数据集。目前在机器学习中较受欢迎的是统计学习方法[1-3]和人工神经网路[4,5]。虽然这两种模型分别来自于统计学和计算机学,但同时也具有一定的相似性。
  在本文我们给出了统计学习方法和人工神经网络的在模式统计识别中共同点,并且说明为何神经网络可以看做是统计学习的总结。目前预测模型算法已经有不少现成的实现,既有免费的也有商业的软件可用于测试。通过测试发现所获取的结果主要依赖于三个因素:模型构建的数据集的质量、所调整的模型参数和用于计算模型处理结果的评价标准。在总结中,我们指出判断这些预测模型测试结果的好坏所影响的因素。
  2 统计学习中的典型算法
  支持向量机和k近邻都是统计学习中的典型算法。支持向量机是从统计学习理论思想的一种实现,其工作是从数据集中建立具有一致性的评价器。支持向量机关系的问题是:一个模型如何根据仅仅给出的特征集和训练数据集在未知的数据集中进行预测?
  在算法上,支持向量机通过解决约束二次优化问题在数据集中建立最佳的分界线。通过使用不同的核心函数,可以使模型包含不同程度的非线性和灵活性。因为他们可以从不同的高级统计思想中衍生出来,并且在模型计算时不会出现统计错误,因此支持向量机在过去的几年都引起了大量的研究者的兴趣。支持向量机的劣势在于分类的是纯粹的二分法,不会给出潜在的其他类别。
  K近邻算法与其他方法不同的是k近邻算法把数据直接用于分类,而且并不需要预先构建模型。这样便不需要考虑模型构建的细节,并且在算法中需要考虑调整的参数只有k,其中k是在评估类别时候需要包含的近邻的数量:p(y|x)的计算值是在x的k近邻中属于y类别的成员数量的比值。通过改变k,模型的灵活性可以相对提高和降低。
  k近邻与其他算法相比的优势在于近邻可以提供分类结果的解释,在黑盒模型不足的时,这种基于实例的解释更具有优势。而k近邻的主要缺点在于近邻的计算中:为了计算近邻需要定义一个量度计算不同原子数据之间的距离。在大部分应用领域中,如何这种方式定义的量度并不清晰,只能通过尝试和失败,根据相对重要的并不确定是否能反应量度的数据来定义量度。
  3 人工神经网络与统计学习的对比总结
  神经网络与统计学习方法不同的是神经网络需要进行模型的计算。神经网络的主要识别过程包括两个:训练模型和根据模型进行预测。与其他机器学习方法不同的是,神经网络具有非常特别的结构,在这个结构中,有输入层、输出层和至少一个隐藏层。但与其他机器学习方法一样的是:构建模型的目的都是找出其参数的最佳值。绝大部分机器学习的算法都是使用梯度下降法把损失函数的结果最小化并且在每次迭代的过程都能找到更合适的参数值。神经网络最重要的组成部分是“神经元”,每个神经元可以看做是一个函数,可以向神经元输入数据,神经元会输出相应结果,神经网络往往具有众多神经元。一种特殊情况是,当人工神经网络只有一个“神经元”,在这种情况下,神经网络与逻辑回归算法是一样的。
  在应用上,神经网络往往用于多类别分类问题,例如给图片根据数字、字母、人物、汽车等等进行分类。而上述的支持向量机和k近邻算法都只能进行二值分类。
  参考文献:
  [1]Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems and their applications, 1998, 13(4): 18-28.
  [2]Taravat A, Del Frate F, Cornaro C, et al. Neural networks and support vector machine algorithms for automatic cloud classification of whole-sky ground-based images[J]. IEEE Geoscience and remote sensing letters, 2015, 12(3): 666-670.
  [3]Weinberger K Q, Blitzer J, Saul L K. Distance metric learning for large margin nearest neighbor classification[C]//Advances in neural information processing systems. 2006: 1473-1480.
  [4]Wan E A. Neural network classification: A Bayesian interpretation[J]. IEEE Transactions on Neural Networks, 1990, 1(4): 303-305.
  [5]Zeng D, Liu K, Lai S, et al. Relation classification via convolutional deep neural network[C]//Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. 2014: 2335-2344.
其他文献
图书馆的服务对象是读者,如何为读者提供最好的阅读空间,吸引读者来图书馆看书学习,是每一个图书馆都应该考虑的问题,在网络传输信息已成定势的年代,图书馆的作用逐渐退化。
在对涡旋真空泵运行温度场采用大型有限元分析软件ANSYS进行模拟与研究的基础上,对其工作过程的应力与变形进行了模拟分析。相关结果表明,软件分析基本上可以反应涡旋真空泵
深化集体林权制度改革后,我国林农的市场经济观念不断增强,林权交易的数量显著增多,林权评估问题由此受到各方重视。在林权流转及林权评估等基本问题分析的基础上,阐明我国集
前几天和同事们聚会,有人点了一首歌叫,音乐一起,就有三个人离座起舞,舞姿极其夸张、搞笑,而且像一个师傅教出来的.细问才知道,原来是“山寨”了一把某单位职工自编的爆笑舞
针对OCC废纸制浆造纸污水特性,采用改良型A-B-O活性污泥法对其进行处理,选用爱尔氧海神搅拌机作为充氧设备,取得很好效果;此工艺具有效果好、工艺稳定、运行安全、运行费用较
摘要:在某型飞机中,全向告警系统中部分产品含有电源部件,电源部件将机上输入+27V电压转换为产品工作所需的供电电压。电源部件故障较为高发,因此,对电源部件的修理进行探讨在全向告警器的修理中有一定的意义。  关键词:全向告警系统;电源部件  1 引言  在某型飞机的全向告警器系统中,主模块组件与增强模块组件均含有电源部件。电源部件将机上的+27V直流输入电压转成产品工作所需的三路+5V及±6V、±1
酒泉地区作为甘肃省胡杨林面积最大的地区,其胡杨在城市园林绿化中应用也较为广泛,但栽植成活率一直成为其作为本地园林树种选取的困扰。通过对本地区近几年来多个工程项目栽
随着计算机技术以及光学成像技术的发展,集成了人工智能、机器识别、机器学习、视频图像处理等多种专业技术的人脸识别技术也逐渐成熟,人脸识别技术现如今已成为最热门的研究之一,在各行各业都起着非常重要的作用。本文就人脸识别的过程进行了综述,并介绍了一些常用的人脸识别算法,阐述了人脸识别技术相对于其他生物识别技术的优势以及人脸识别技术面临的挑战。
你我都是“火人”rn中国的汉字非常有意思,老祖宗在造字的时候往往赋予其中很多内涵.比如这个“病”字,病字旁下面一个“丙”字,二者有什么关联呢?国内著名健康专家、微软中
一阵和风好温馨rn周末到武国忠医师家里采访,他家里有一只小狗,见了我“汪汪汪汪……”,叫得很凶,还勇敢地冲到我的面前,做出要打架的模样.武医师伸手摸一摸它,从狗头沿着脖