分类算法的研究进展

来源 :中国新通信 | 被引量 : 0次 | 上传用户:huanhuan40705
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  分类是数据挖掘、机器学习和模式识别中一个重要的研究领域,分类的目的是根据数据集的特点构造一个分类函数或分类模型,该分类模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测,和回归方法不同的是,分类的输出是离散的类别值,而回归的输出是连续或有序值。
  一、分类算法概述
  为了提高分类的准确性、有效性和可伸缩性,在进行分类之前,通常要对数据进行预处理,包括:(1)数据清理,其目的是消除或减少數据噪声处理空缺值。(2)相关性分析,由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导分析过程,所以相关性分析的目的就是删除这些不相关的或兀余的属性。(3)数据变换,数据可以概化到较高层概念,比如连续值属性“收入”的数值可以概化为离散值:低、中、高。又比如,标称值属性“市”可概化到高层概念“省”此外,数据也可以规范化,规范化将给定的值按比例缩放,落入较小的区间,比如【0,1】等。
  二、常见分类算法
  2.1决策树
  决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
  2.2贝叶斯分类
  贝叶斯分类是统计学分类方法,它足一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naive Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算法,TAN(tree augmented Bayes network)算法。
  2.3神经网络
  神经网络是大量的简单神经元按一定规则连接构成的网络系统。它能够模拟人类大脑的结构和功能,采用某种学习算法从训练样本中学习,并将获取的知识存储在网络各单元之间的连接权中。神经网络主要有前向神经网络、后向神经网络和自组织网络。在数据挖掘领域,主要采用前向神经网络提取分类规则。包括替换的误差函数、网络拓扑的动态调整、学习率和要素参数的动态调整。近年来,从神经网络中提取规则受到越来越多的关注。这主要有以下二种倾向:(1)网络结构分解的规则提取;(2)由神经网络的非线性映射关系提取规则。未来神经网络的发展可向进一步降低算法的复杂度、提高所提取规则的可理解性及算法的适用性方向发展。
  2.4遗传算法
  遗传算法是模拟生物进化过程的全局优化方法,将较劣的初始解通过一组遗传算子(繁殖—— 即选择、交叉——即重组、变异—— 即突变),在求解空间按一定的随机规则迭代搜索,直到求得问题的最优解。遗传算法在数据挖掘领域的主要应用有:(1)用它和BP算法结合训练神经网络,然后从网络提取规则;(2)分类系统的设计,如编码方式、信任分配函数的设计以及遗传算法的改进等。遗传算法用于数据挖掘存在的问题是:(1)算法较复杂,(2)收敛于局部极小的过早收敛等难题未得到解决。
  2.5 KNN算法
  最临近分类KNN是基于要求的或懒散的学习法,即它存放所有的训练样本,并且直到新的(未标记)的样本需要分类时才建立分类。这与诸如决策树和神经网络这样的急切学习法形成鲜明对比。懒散学习法在训练时比急切学习法快,但在分类时慢,特别是当与给定的无标号样本比较的可能的临近者(即存放的训练样本)数量很大时,懒散学习可能引起很高的计算开销。
  参 考 文 献
  [1] Quinlan J R.Induction of decision trees.Ma—chine Learning. 1986:1—356.
  [2] Quinlan J R.C4.5 Programs for machine learning.Morgan Kauffman.1993:81—106.
  [3] 毛国君,段立娟,王实等.数据挖掘原理与算法[M].北京:清华大学出版社,2005:123—127.
  [4]乔向杰,陈功平.数据挖掘中分类算法的可扩展性研究[J].信阳师范学院学报,2006(2):239-242
其他文献
【摘要】 在当前国内外传媒的竞争日趋白热化的情况下,广播新闻作为广播行业的龙头与骨架,如何进一步发挥广播的各种优势,创新做优、做强广播新闻,赢得竞争的胜利,这是事关广播兴衰的重大问题,也是新闻工作者孜孜不倦探讨的问题。本文将结合《睢县新闻》和专题栏目就此作简单探讨。  【关键词】 广播节目 传播 广播新闻  一、充分发挥广播自身优势  1.传播迅速。“快”是广播新闻的竞争力所在。广播新闻报道较少受
一、问题的提出电视观众的生活形态调研,至今都没有受到绝大多数电视台应有的重视。原因在于:有的电视台不知道有这样指导频道定位、节目制作和编排的调研,有的电视台虽然知道有
通信设备的正常运行是基于一定的环境条件的,设备内部很多器件要求在适当的温度、湿度、洁净度等情况下才能稳定运行。在维护工作中,需要重视机房环境对网络稳定运行的影响,尤其
我国石化工业自主创新的现状及问题新中国成立特别是改革开放以来.我国石油化工产业围绕国民经济发展需求,坚持以市场为基础、以科技进步为动力、以结构调整为主线,在引进、消化
一、16T16R技术  16T16R技术采用双RRU上塔,建设双面8通道天线或高增益天线,提升上下行覆盖距离。  1.1 16T16R技术简介  16T16R技术下行采用两个8 通道RRU,其中一个RRU下行主发射TDL,另一个RRU下行只发射TDS,TDS的剩余功率可以给TDL使用。上行采用16 通道双模接收来同时提高TDS/TDL上行覆盖能力,同一个小区使用2个RRU进行联合收发,2个RRU和
消费者到底需要什么样的微波炉?便宜的价格能决定消费者的行为吗?影响消费者消费行为的决策行为都有哪些?消费者的消费倾向如何?未来的微波炉应该如何设计?生产微波炉的厂商今后应
我们现在身处在一个复杂的信息世界,之所以复杂是因为现代技术的发展让我们获取信息的渠道越来越多元了,只要打开互联网、动动鼠标,信息就扑面而来,而海量的信息也常常让人无