在动态中趋近真实

来源 :湖北招生考试·理论 | 被引量 : 0次 | 上传用户:baobei871011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 现行客观性外语测试题评分的缺陷主要表现在:对不同考查任务的赋分差异充满主观偏向,对同一考查任务中的各个小题进行平等赋分难以反映各个小题对外语能力的不同要求,造成这两方面问题的根源在于评分没有反映不同的试题对有不同的外语能力要求。为了纠正客观外语测试题的评分缺陷,本研究尝试提出基于难度系数的动态评分设想:首先根据考生的答题情况,计算出各题的难度系数;接着根据各个小题的难度系数,对其进行赋分,作为评分标准,称作基于难度系数的赋分;根据难度系数赋分,统计考生的原始分;最后,把考生的原始分转换成符合接受习惯的T分数。这种评分方法不是基于测试设计者的预设标准,而是基于不同考生群体的具体表现,随考生群体情况的变动而变动,所以叫动态评分。为了更详细地解释这种评分方法,本文还进行了实例演示。
  关键词 客观试题;外语测试;动态;评分
  [中图分类号] G424.79 [文献标识码] A [文章编号] 1008-004X(2013)02-012-06
  收稿日期 2012-03-12
  [作者简介] 詹先君,男,湖北黄冈人,安徽科技大学外国语学院讲师,主要从事教育评价研究。
  1、引言
  评分是指按照一定的标准,评分者(人或电脑)对某一题目的答案或考生在某一个考试中的表现进行赋值。按照评分方法来划分,外语测试题目可以分为客观试题和主观试题,评分时不需要评分员做出判断的就是客观试题,在评分过程中需要评分员自己作出判断的试题,就是主观试题。评分客观正确与否,直接关系到语言测试对考生的能力素质评价的有效性和真实性,所以评分外语测试中的重要环节,备受研究者关注。长期以来,学术界对外语测试评分的研究主要集中于主观试题上。这是因为,主观题的评分受人为因素的影响比较大,评分标准不易确立和把握,对主观性试题的评分难于做到客观真实,具有很大的研究空间和研究价值。因此,有关主观题评分问题的研究成果不仅非常丰富,而且还很全面、深入。综观国内外的研究,在范围方面,对外语主观题评分的研究涵盖了写作测试、翻译测试、口语或口译测试、听写测试等几大领域,在研究范畴方面,涉及到了主观题评分主体、评分标准、评分方法、评分程序等方方面面。
  相形之下,对在外语测试中占有很大比例的客观题评分的研究几乎没有。以“客观题评分”为关键词在CNKI、百度或者google上进行搜索,看到的都是一些描述外语测试客观题评分、计分方法的介绍性和描述性文献,很难找到有关研究客观题评分方法的文献。客观题评分问题之所以没有得到学界的关注,是因为客观题评分标准客观,赋分清晰,且在现代科学技术手段的支持下,客观题评分多由电脑完成,能够做到评分方便,计算快速准确。因此,人们可能这样认为,客观题评分既然都是有着明确的标准和客观的方法,很少受人为因素的影响,研究的价值和空间不大。其实,客观题评分虽然表面客观,但是其实质还是主观的,因为其评分标准、题型之间的赋分差异、评分方法等诸多重要因素都是经过外语测试的开发者和设计者来设定的,只不过把这些人为设定的因素交给评分者(人或电脑)去执行罢了。其实,考察现行的客观性外语测试题评分方法,可以发现其中存在一些比较大的缺陷。本文将结合相关语言测试理论分析这些缺陷并尝试提出一种新的客观性外语测试题评分方法,以提高其合理性、科学性和真实性。
  2、客观外语测试题评分缺陷分析
  外语测试中的客观性试题具有多种形式,如多项选择题、匹配题、判断正误题、排序题等,不过,目前得到大量采用的仍然是多项选择题。Bachman指出,外语测试中的客观性多项选择题可以分为两类:最佳答案型(best answer type)和唯一答案型(correct answer type),最佳答案型多项选择题要求考生在几个类似的答案中选择与语境、情景、意义最合适的答案,考查多方面的语言能力,对考生的要求比较高,难度比较大。唯一答案型的多项选择题考查的内容单一,正确答案与其他答案(干扰项)区别明显,考生比较容易识别,难度比较小。题干相同的题目,根据其选择项的不同,既可以是最佳答案型的题目,也可以是唯一答案型的题目。现以一道选择替代词的题目为例来说明这个问题,该题的题干是:
  All professors at the university ceased their teaching because of the large pay rises given to top administrators while faculty salaries are frozen.
  如果配以下列选项: A. began B. changed C. stopped D. increased,
  只有选项C唯一正确,那么这道题就是唯一正确答案型的题目了;
  如果换作以下选项:A. terminated B. finished C. discounted D. completed,
  最佳选项为C, 那它就变成最佳答案型的题目了。Bachman同时还认为,因为外语测试中的题目很难做到只考查单一语言能力,多数题目考查的是综合语言能力,因此,大部分的多项选择题目是最佳答案型的题目,并建议根据答案反映的语言能力情况,对最佳选项外的选项进行适当赋分。
  应该说,Bachman对外语测试多项选择题评分理论相当细致、完整、令人信服,可是,在外语测试的实践中,多项选择题的评分却严重忽视了题目之间的差异,评分表面上客观,实际上却充满了主观性。这种缺陷主要表现在两方面:同一测试任务下的每个小题赋分相等不能体现题目差异,不同测试任务之间的赋分差异主观偏向严重。
  2.1.不同测试任务之间的赋分差异主观偏向严重。
  目前,在国内外大规模外语测试中,对阅读理解、完形填空、单项选择、听力等部分的考查常采用客观性试题,并且对不同的考查部分中的客观题采取差异赋分制度,一般来说,对阅读理解中的客观题赋分最高,往往达到每题2分,对听力、完形填空和语法考查中的单项选择等题目的赋分往往比较低,常为每题0.5分、1分或者1.5分不等。如在2009年的高考英语试卷中,全国卷和各分省卷对阅读理解试题的赋分均为2分,但是对完形填空的赋分却各不相同,全国卷I、全国卷II、湖北卷、安徽卷、北京卷、福建卷、湖南卷、江西卷、辽宁卷、陕西卷、四川卷、天津卷、重庆卷完形填空每题均为1.5分,广东卷为2分,山东、浙江、江苏卷则为1分。又如在研究生入学英语考试和大学英语四六级考试中,完形填空的赋分都是0.5分,阅读理解的赋分为2分(见表1)。从这三个大规模考试来看,阅读理解都是每题2分,而对完形填空的赋分则有很大差异。如在我国的高考英语考试中,阅读理解和完形填空的赋分差异出现了0分(如广东卷)、0.5分(如全国卷I、全国卷II、湖北卷、安徽卷、北京卷、福建卷、湖南卷、江西卷、辽宁卷、陕西卷、四川卷、天津卷、重庆卷)、1分(如山东卷、江苏卷、浙江卷)等几个差值,而在研究生入学英语考试和大学英语四六级考试中,这个差异则达到了1.5分。现在的问题是,在这三种考试中,为什么同样是两种题型,赋分的差异却悬殊如此之大,确定这样的差异是否有理论和实践依据?Alderson认为,“对一份试卷中的各个部分进行不同的赋分叫加权处理,加权处理的依据在于反映对不同语言能力的不同要求,对教学大纲中不同培养目标的侧重,也反映语言测试设计者对语言能力的不同看法。”Alderson的观点似乎为这种赋分差异提供了理论根据,但是他的理论也充分暴露了不同题型之间的赋分差异的强烈主观性缺陷,因为这种赋分差异虽然反映测试对不同语言能力的不同要求和对教学大纲中不同培养目标的侧重,但是这些要求和侧重最终都必须依靠语言测试设计者来贯彻落实。所以,赋分差异实际上是“反映语言测试设计者对语言能力的不同看法”,也就是说,外语测试设计者的主观看法很大程度上左右着各个不同测试任务赋分的比例、大小,正是由于这种主观性,才导致完型填空题和阅读理解的赋分差异在分省命题背景下的英语高考、在研究生英语考试和大学英语四六级考试中各不相同的局面。   2.2.同一测试任务下的每个小题赋分相等不能体现题目之间的差异。上面通过考察不同题型之间的赋分差异,我们知道现行客观性外语测试题的评分存在主观性的缺陷,现在来考察同一题型之间各个小题之间的赋分,同样可以看到现行客观性外语测试题评分的不合理性。在现行的外语测试中,每个题型之间的各个小题的赋分是平等的。如绝大部分语言测试中对阅读理解试题每个小题的赋分都是2分。这种平等赋分方法不尽合理,因为我们知道,在一份外语测试试卷中,不仅各个考查的难度不同,就是同一考查部分内的各个小题的难度也不一样,那么,对难度不同的题目进行相同赋分,就不能真实反映考生的真实水平。以外语测试中的阅读理解题为例,一般来说,阅读理解题目一般考查对细节和事实的识别和确认、对语篇中生词的猜测和理解、对语篇主题思想的把握、对作者态度和立场的领悟、根据语篇提供的信息进行推理等能力。这几类阅读能力考查题目的难度显然不一样,例如,考查推理能力的题目比考查识别细节和事实能力的题目难度显然要大,对考生的语言能力的要求显然要高,那么,把两类题目进行同样赋分就不能真实地反映考生的外语能力。因为一般来说,难度大的题目往往考查的语言知识更为复杂、考查语言技能更为高级、对考生的语言知识和语言运用能力要求更高。对同一题型之内的各个小题进行平等赋分,就是忽视这种差异的存在,其评分结果就很难说准确地反映了考生的实际语言能力水平。包括语言测试在内的任何测试都是“一定组织中的考试主体根据考试目的的需要,选择运用相关资源,对考试客体某方面或诸方面的素质水平进行测度、甄别和评价的一种社会活动”。要测度和甄别考试客体某一方面和诸方面的素质水平,关键在于对考试客体素质的准确认知和客观描述,对考试客体素质本原的逼近,对考试客体素质真实面貌的恢复,为评价提供价值判断基础。平等赋分只会模糊事实判断,使价值判断失去基础,从而使语言测试在一定程度上失真。
  3、客观外语试题评分的纠偏设想及演示:基于难度的动态评分
  3.1.设想。基于以上的分析,我们可以看到,现有的客观题评分方法存在两大缺陷:不同考查部分的赋分差异缺少明晰的证据,同一考查部分中各题的平等赋分又不能体现各题的难度价值。这两大缺陷其实是由同一因素引起的:忽视题目之间的难度差异。那么,要想解决这两方面的问题,Bachman提出的办法就是给每个小题中各个正确度不同的答案进行程度不同的赋分。Bachman的方法在理论上是可行的,但是不具备实践上的操作性,原因是确认最佳答案型和唯一正确答案型的题目既没有成熟的标准,还要花费大量的时间;确认了题目的类型之后,对最佳答案型题目中的各个答案的赋分又存在很大的困难,这些答案之间的差异有多大,各个答案的分值是多少,这些因素都很难确定。为了解决这个问题,使多项选择题的评分既能够反映自身的难度,体现对考生的不同程度的外语能力要求,又具有可操作性,本研究提出基于难度系数的多项选择题评分方法。具体的操作办法就是:首先根据考生的答题情况,计算出各题的难度系数,根据难度系数,对难度大的题目赋予相应更高的分值,对难度小的题目赋予相应比较低的分值,然后根据这个赋分值,对考生的各个题目进行评分、合分、总分,得出考生的原始分,最后,为了便于考生和考试用户的接受和使用,把原始分转换成T分数。这样评分之所以更合理、更科学,理由如下:其一,客观题评分标准是基于难度系数,不是基于试题设计者的主观判断,也不是基于不同测试对不同语言能力的不同要求或者教学大纲对于不同语言技能培养的侧重,因为在现有条件下,这三个因素在命题实践中很难确定、更难以量化,而难度系数是比较容易量化的指标,并且是真正客观性的指标。其二,基于难度系数的评分,其主要思想是考生完成难度较大的题目得分相应提高,完成难度较小的题目其得分相应降低,这样的评分方法,克服了不管题目难度如何,都平等得分的缺陷,能够更准确地反映考生的真实语言能力。其三,本评分方法中的难度系数,是根据考生的实际作答情况进行估计,随着考生群体的变动而变动,具有客观可靠的特点,基于以上的评分对考生群体具有真实性。
  我们把这种方法称之为基于难度系数的客观题评分方法,也称之为动态评分方法。就是说,外语客观性试题的评分标准不预先设定,完全由一个考生群体的最终表现来决定。其评分标准,随着考生作答的情况变动而变动,其评分过程也要经过一系列的转换和计算,也是动态的。
  3.2.演示。为了更详细地说明动态评分的操作过程,本研究利用实际外语测试对这种评分方法进行了演示,在演示的过程中,必要时也会把这种方法与传统评分方法进行对比。演示的过程如下:
  3.2.1 演示样本和统计工具:本校2010级食品安全101班34位学生的2010-2011学年度下学期的期末试卷中的听力、阅读理解、完型填空测试题(见表2),这三个考查任务以客观性的多项选择题为主。其中,听力15题,阅读理解30题,完型填空10题,原卷对听力、阅读理解、完型填空中每小题的分值分别确定为1分、2分、0.5分。因此,从赋分值来看,似乎阅读理解题目最难,听力试题其次,完型填空题目最简单。这个赋分的合理性在下面的演示过程中将得到验证。本演示所使用的统计工具是spss11.0。
  3.2.2 题目答对率统计及难度系数的计算。依据参考答案,首先对每个小题的作答情况进行统计,主要是为了获取答对率,并基于答对率来计算每个小题的难度系数。客观性试题难度计算的方法有原始定义法和极端分组法。本文采用原始定义法,公式如下:
  4、研究的不足
  本研究提出的基于难度系数的外语客观测试题评分方法,其优势和不足非常明显。优势在于,客观题的评分标准不再完全依赖于主观设定,评分可以反映题目的难度要求,进而真实、准确地反映考生的外语能力水平。缺陷是首先计算有些复杂,要经过一系列转换,但是在目前普遍采用计算机对客观性试题进行评分的条件下,这个问题不难解决;其次是导致强者更强,弱者更弱。因为语言能力强的学生更可能做出难度系数比较大的题目,因此得分更高,与语言能力弱的学生拉开的距离更大;最后是在国内普遍采用原始分的环境下,这样的评分方法可能还不能得到考生和社会的接受,这就需要各方努力普及外语测试知识,得到测试各方的理解和支持。
  [参考文献]
  [1]廖平胜.考试学[M].武汉:华中师范大学出版牡,1988.
  [2]吕长竑.口语测试评分标准比较研究[J].外语教学与研究,2008,(6).
  [3]穆雷.翻译测试及其评分问题[J].外语教学与研究,2006,(6).
  [责任编辑:钱道赓]
其他文献
摘要:铜是机体内必需的微量元素之一。本文就铜的功能及其在猪生产中的应用进行综述。  关键词:铜:猪:功能:应用  随着铜被认为是机体内必需的微量元素后.Braude等研究证实添加高于正常需要量10倍的铜还可以提高育肥猪的生长速度和饲料报酬后.还有很多研究均表明高剂量的铜是一种高效、廉价、的促生长剂。但是多年以来的高铜利用也给环境带来一定的破坏,引起相关部门的注意,因此,如何高效利用铜一直都是研究重
期刊
托尼?厄尔利生于得克萨斯州,在北卡罗来纳州长大成人,受教于阿拉巴马大学,获艺术硕士学位。他的著作包括短篇小说集《我们到了乐园》《高个子先生》,长篇小说《男孩吉姆》《蓝星星》,散文集《不知咋地组成一个家庭》。一九九六年,格兰塔杂志将托尼·厄尔利列入四十岁以下最佳作家名单。自一九九八年以来,托尼?厄尔利在《哈珀斯》《纽约客》等杂志发表小说和非虚构作品。托尼?厄尔利现在范德堡大学执教,与妻子和数只短腿猎
期刊
一  我从医院回来,桌上已摆着一盆鸡汤一盆菜。鸡汤是我用砂锅提前炖好的,要是用炒锅,母亲肯定会将鸡肉、牛肉、青椒、土豆一锅烩了。放下东西我赶紧围上围裙,想去把准备好的鸡蛋西红柿、肉末萝卜缨炒了,母亲说你爸只喝汤,就咱俩,能吃多少?  说实话,我也没什么心情。诊断书上写有Ca,我第一反应是癌,其实cancer这个单词我早忘了,直觉是它。医生的话证实了我的推测,直肠癌,中晚期。我问确定吗,他说基本确定
期刊
附表1:湖南省飼料添加剂、混合型饲料添加剂生产许可证企业名单(2018.7.1-2018.8.31)
期刊
附表2:湖南省添加劑预混料生产许可证企业名单(2018.7.1-2018.8.31)
期刊
附表5-1:湖南省获浓缩饲料、配合饲料、精料补充料、单一饲料生产许可证企业名单(续二十八)(2018年7月1日-8月31日)  附表5-2:湖南省获浓缩饲料、配合饲料、精料补充料、單一饲料生产许可证企业名单(续二十八)(2018年7月1日-8月31日)
期刊
附表4:湖南省2018年饲料添加剂饲料产品批準文号名单
期刊
附表3:湖南省2018年飼料添加剂、添加剂预混合饲料产品批准文号名单(三)
期刊
附表6:湖南省飼料和饲料添加剂委托生产备案名单(2018年7月1日一2018年8月31日)
期刊
一件简单的乡村案件引发的“人情”委托,少一用通俗简洁的语言将这一生活中并不少见而又人人心照不宣的现象以故事的方式叙说得饶有兴味,寥寥几笔便能使故事中的人物迅速地在读者心中产生一个个真实得几乎随处可见的映像,人们可以从许多有关人情世故的传闻或亲历中找寻到小说中人物的蓝本:善良却未免自私蒙昧的底层求助者,在人情与原则的两难之间小心翼翼试探着边界的被求助人。千百年人情社会的习俗惯例在今天的法治中国仍然或
期刊