ID3算法在教学过程中的应用

来源 :科学之友·下旬刊 | 被引量 : 0次 | 上传用户:donny0325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在教学过程中,不同的学生适应不同的教学方法,只有选择合适的教学方法才能达到事半功倍的效果。本文使用决策树算法中比较简单适用的ID3算法,通过使用训练数据计算信息增益从而选择分裂属性的次序,由此构建决策树,并将构建好的决策树应用于学生信息,对学生进行分类。
  关键词:ID3算法;决策树;分裂属性;信息增益
  中图分类号:G642文献标识码:A文章编号:1000-8136(2011)06-0131-02
  
  教学其实也是一种艺术,有多种方法,目的只有一个,就是怎样很好的引导学生朝着他们想要达到的方向前进,这个过程很漫长,在这过程中要采用很多不同的方法来教育学生。但是不同的学生所适用的教学方法是不同的:理科类学生要很有条理的去思考问题,想办法解决问题;文科学生更多是通过感性的方式去理解事物;而工科的学生更多是通过实践或实验数据来解释某些现象。不同年龄阶段的学生所适用的教学方法也不同:低年级的学生要接受更多的新事物、新概念,在讲课时应更多使用图示、列表等形象的方法;高年级的学生已经掌握了一定的基础知识,就应更多的采用引导探究为主的方法,培养学生学习的积极性和主动性。此外性别因素对学生的学习方法也有影响:男同学的动手能力要强一些;而女同学则更擅长语言文字的表达。因此选择适当的教学方法可以在很大程度上提高学生的学习效率,达到因材施教,事半功倍的效果。要对不同类型的学生使用不同的教学方法,首先要根据不同学生的特点对其做适当的分类。
  在求解分类问题的方法中,决策树是最有用的一种方法。一旦建好树,就可将其应用于数据库中的元组,并得到分类结果。使用决策树求解分类问题易于理解且高效,对大型数据库具有很好的扩展性。本文通过ID3 算法构建决策树,并将构建好的树应用于数据对学生进行分类。
  1决策树算法介绍
  决策树学习算法是以实例为基础的归纳学习算法,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据预处理、数据挖掘等。决策树主要适用于对具有多个属性的数据进行分类。决策树算法在解决问题时主要分为两步:第一,构建决策树;第二,将决策树应用于数据。
  1.1数据采集
  决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。决策树中每个结点按属性进行标记,每个弧被标记为一个谓词,这个谓词可以应用于相应结点的属性,每个叶节点被标记为一个类。发生分裂的属性叫做分列属性,在构建决策树过程中首先要选择最佳分裂属性。影响学生的学习因素有很多,但是不能都作为分列属性,如性格和社会环境虽然也会影响学生的学习,但如果将其纳入分裂属性会使决策树过于复杂,不利于对数据分类。经过筛选我们选取年级、性别、科目作为分裂属性,由此构造决策树。
  通过对数据库中学生信息数据进行转换、加载和处理,同时综合考虑影响学生学习的主要因素选取如表1样本数据集。
  表1用于学生分类的训练数据
  学号 性别 科目 年级 适应性(演示)
  1 女 文 1 是
  2 女 理 1 否
  3 男 文 1 否
  4 男 理 1 否
  5 女 工 1 是
  6 男 工 1 是
  7 女 文 2 是
  8 男 文 2 否
  9 男 理 2 是
  10 女 理 2 否
  11 男 工 2 否
  12 女 工 2 是
  13 男 文 3 否
  14 女 文 3 是
  15 女 理 3 否
  16 女 工 3 否
  17 男 理 3 否
  18 男 工 3 是
  表1中每一条记录表示一个学生的信息,每一列表示学生一方面的属性。其中性别、科目、年级作为分裂属性,对学生是否适应图形、图表演示的教学方法进行判断。
  1.2ID3算法的应用
  在构造决策树的过程中哪个属性作为分列属性,以及分裂属性次序的选择会影响算法的性能。根据分列属性选择方法的不同有不同的决策树算法。常用的决策树算法有ID3算法,C4.5算法和C5.0算法等。C4.5和C5.0算法主要用于解决连续数据的分类问题。ID3算法则用于解决非连续数据的分类问题。学生的信息属于非连续数据,因此选用ID3算法。
  要构建树必须选择分裂属性的次序,ID3算法根据每个分裂属性所产生信息增益的大小对其排序。
  表1中共有18条记录,训练数据的初始状态为:适应演示教学法的占(10/18),不适应的占(8/18)。首先计算初始集合的熵为:
  H(D)= 10/18log(18/10)+8/18log(18/8)=0.2938
  如果选择科目作为分列属性,则文、理、工科均有6个学生,文科学生组成子集的熵为:
  4/6log(6/4)+2/6log(6/2)=0.2764
  理科学生组成子集的熵为:
  2/6log(6/2)+4/6log(6/4)=0.2764
  工科学生组成子集的熵为:
  4/6log(6/4)+2/6log(6/2)=0.2764
  上述两个熵的加权和为:
  〔(6/18)0.2764〕+〔(6/18)0.2764〕+ 〔(6/18)0.2764〕=0.2764
  因此,用科目作为分裂属性所得的信息增益为:
  0.2938-0.2764=0.0219
  同样,分别选择年级、性别,作为分裂属性,所得到的信息增益分别是0.0526和0。因此选择年级作为第一分裂属性,接下来是科目,最后是性别。
  1.3决策树的生成
  训练开始时所有数据都在根结点,然后递归地进行数据划分,最终生成一棵初始树。通过前面的训练数据所生成的决策树,见图1。
  
  图1生成的决策树
  从图1中可以看到,在对学生信息数据进行分类时首先根据年级属性可以将所有数据划分成3个集合,每一个集合分别包含1,2,3年级的学生。具体每一个集合,又可以根据科目分为三类,分别表示各年级的文、理、工科学生子集合。最后可以根据性别确定每一个学生到底是否能适应图形、图表演示的教学方法。
  1.4决策树的应用
  在教学过程中存在有多种多样的教学方法,如果直接按照不同的教学方法对学生分类,这样所构成的决策树过于复杂,所以效率不高。本文通过改变表中第四列的数据,可以得到学生对不同教学方法的适应性。
  教师在教学过程中通过将本班的学生信息输入所构建好的决策树中,得到学生对不同教学方法的适应程度,由此选择适当的教学方法。
  2结束语
  决策树算法是常用的分类方法,这种算法分类精度高,形成的模式简单,对噪声数据有很好的健壮性。本文使用决策树算法中比较简单的ID3算法构造决策树,对数据库中的学生信息进行分类,从而找到适合于学生学习的教学方法。这种方法虽然理论清晰方法简单,但是只考虑了性格、年级、性别三个因素,而影响学生的学习有众多的原因,因此教师在实际教学过程中还应通过不断的归纳总结,积累经验使得算法进一步得到完善,使算法具有更强的实践性和应用性。
  
  参考文献
  1 王莉.ID3算法的研究与应用[J].福建电脑报,2010(1)
  2 Margaret H.Dunham. 数据挖掘教程[M].北京:清华大学出版社,2005
  
  Application of ID3 Mothod on Teaching Process
  Pang Na,Wang Heping
  Abstract: In the process of education , different students adapt to different method, however only proper teaching method can get twice the result with half the effort.This paper classifies the students according to the ID3 classification algorithm. To choose the right order of the splitting attributes, the mothod gets the information gain of different attributes using the training data and then constructs a decision tree.At last applies the decision tree to the classification of the students.
  Key words: ID3 method; decision tree;splitting attribute; information gain
其他文献
第一阶段(1986年~1997年):以和的颁布实施为标志,国家从立法上明确了“十分珍惜和合理利用土地”的方针,初步规定了闲置土地的处置方式.
为进一步加大我国欠发达地区廉租住房建设的力度,建议政府有必要率先在欠发达地区统一实行“租售并举”的相关政策,明确规定我国欠发达地区可以率先实行将廉相住房以“成本价
随着国家经济转型、区域经济特色化发展的不断深入,高职教育作为培养区域高素质技能型人才的主力军,面临着严峻的人才培养压力,而校企合作这一重要培养途径却未得到长足发展,
厦门同茂食品罐头有限公司从利乐公司引进的中国第一套茶叶萃取系统,标志着利乐已进入前景看好的新兴即饮(RTD)茶市场此前一套相似的系统曾于2000年被可口可乐在印度尼西亚的
“国家给了我们这样空前的机遇,我们要用如铁的专注推动一个新兴产业的发展”    无论是打破国外垄断寻求自主技术突破,还是首提联合能源供能技术概念,在新能源领域打造全新的商业模式战略,超越企业范畴筹资组建国家级蓄能产业基地,实施国内最典型的区域集中供冷项目,首尝以联合能源技术为支撑的分布式能源供能模式。  高灵能源始终是那个深怀民族之志纵横蓄能沙场的拓荒新锐,用无限的开创力和如铁的专注推动蓄能产业进
在新课程改革的背景要求下,初中物理教学的目的主要有:第一,使学生获得物理学的基础知识、基本技能及实际应用;第二,培养能力;第三,激发兴趣;第四,培养高尚品格,增强其自信心,激发其学习热情,从而促进其科学素养的提高,为终身发展及形成科学世界观和科学价值观打下基础.而实验伴随和贯穿在物理学习的始末,有效地进行课堂实验教学,不但可以提高课堂教学的效率,也能够减轻学生的学习负担,提高其学习成绩.  一、
1986年2月,国务院第100次常务会议决定,组建国家土地管理局,作为国务院直属机构,主管全国土地和城乡地政工作.同年6月25日,第六届全国人大第十六次常委会议通过了.
证券市场信息披露制度对于保护投资者权益以及对于促进证券市场的健康、有序发展意义重大.我国证券市场由于监管不到位及中介服务机构的不规范,导致上市公司在信息披露过程中
期刊