论文部分内容阅读
四川省大学英语三级考试(SCET3)是一项由四川省政府组织的省级考试,每一次考试(每年两次)有超过十万考生参加。类似SCET3的大规模语言考试通常会产生大量的数据。这些数据不仅能评估考生的语言能力,而且还能反馈于教师的教学和推动学生学习。此外,数据的科学利用可以为出题者提供判断试题难度以及拓宽题库里试题难度级别范围的可靠依据,有利于有效地提高试题的信度和效度。 本文的目的是基于一种统计方法—数据挖掘—来确定影响SCET3听力对话项目难度的变量。本研究首先以Nissan, et al.(1996)以及Kostin(2004)对托福(TOEFL)对话项目变量的研究为参考,确定了26个分属语音、词汇、句子、语篇以及任务处理五个层面的影响项目难度的变量,但由于SCET3音频录音属保密材料,并且因考试特点其音变受到人为严格控制,本研究没有对语音层面的变量进行附码,只分别对2006年至2010年SCET3中的70个对话项目的这些变量进行附码。此外,以849,418考生对这70个项目的作答情况为基础,用经典测试理论的公式确定了这70个项目的难度值,然后将这70个项目的变量附码结果以及难度值输入到机器学习软件Weka,运行后得到对听力项目难度有影响的变量。 结果显示,在被研究的变量中,有8个变量对SCET3对话项目难度有影响。这8个变量分别属于两类变量:3个属于句子层面的变量,5个属于任务处理层面的变量。与Nissan, et al.(1996) and Kostin(2004)对TOEFL对话项目的研究结果相比,本文中发现的项目难度相关的变量与其基本一致,但也发现了一些差别。尽管两种结果中存在一些由TOEFL和SCET3的差别导致的细微差异,但数据挖掘作为一种统计方法可以有效确定影响项目难度的变量。由于SCET3的特点所限,研究结果难以概全,但仍可为对大规模考试中影响项目难度变量的后续研究作为借鉴。