MHK(三级)口语开放性试题计算机自动评分的可行性分析及实证研究

来源 :中国心理学会,中国教育学会 | 被引量 : 0次 | 上传用户:chongyou2026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  主观性试题因其具有较高的效度而广泛用于口语测试当中。目前,口语测试已经实现了网上评阅,评分的效率和质量得到了明显提高。尽管如此,由于题型的自身局限,评分误差大等问题依然没有得到有效解决。随着计算机技术以及测量技术的迅猛发展,实现MHK三级口语开放性试题的计算机自动评分成为了可能。其一,小型化、高性能、高速的服务器以及云计算、人工智能技术的运用为实现自动评阅奠定了坚实的基础;其二,科大讯飞等公司在模型建构、特征值抽取等方面取得了突破性进展,他们利用语音识别等技术,开发了多语种的口语测评系统,广泛应用于普通话水平测试(PSC)、中考英语测试等考试的实测当中,取得了较为丰富的实评经验;其三,MHK三级口试的三种题型当中,朗读题已完全实现计算机自动评阅,封闭性问题已实现了计算机自动评分和人工评分的相结合,评分信度已经超过了人人评分。
其他文献
问题:项目反应理论(Item response theory, IRT),作为现代心理与教育测量理论的代表,在教育领域的成就测验中已被广泛使用,基于其强假设前提下建构的基本模型,已衍生和发展出许多适用于不同实际测验问题的理论和模型。但在被试量大以及多维参数估计等较复杂的情况下,传统估计过程需要较长时间且有不收敛的风险,效率不高。方法:本研究使用R软件与相应的功能模块生成模拟数据,数据结构为具有三个
认知诊断模型是能够评估学生的长处和弱势的心理测量模型。这些模型能够通过分数分布对学生学习及学习过程进行有效评估,有针对性地给每个学生提供个性化的认知诊断结果,进而教师可以给学生提供补救性的教学建议,或依据班级总体对某个知识点的掌握情况,制定有效的干预措施。个体认知过程、加工技能或知识结构统称为属性。属性层级法采用“属性和分数相对应评分法”,该评分方法假设属性和分数是相对应的,二分属性对应二级评分方
本研究以既有的常見字題庫,透過混合模擬研究程序,探討如何組合電腦適性測驗的各項技術元素,包含:初始值、選題策略以及終止標準,以便設計電腦適性測驗,使其效益達到最大化。雖然過去有不少的研究探討電腦適性化之技術性議題,然而,在實務上,這些研究結果對電腦適性設計決策仍有不足之處。這些技術性議題的探究多半以電腦模擬研究進行,研究者設定理想的測試條件,如題庫能符合測驗目的的要求。實務上,試題研發經常面臨許多
本研究將探討多重解題策略在認知診斷模型中,在不同的多重解題策略題數的比例中對於認知診斷模型估計之影響,其中也將討論多重解題策略Q矩陣之設計。並透過模擬資料之研究與結果來進行比較與分析,以結果來達到最佳的估計效果。根據本研究分析結果,將本研究之結論摘要描述如下:一、在具有不同比例多重解題策略題目的設計下,MS-DINA模式皆比DINA模式的概念辨識率較好。
本研究主要通过界定Q矩阵理论,回答DINA模型是否使用Q矩阵理论问题,并给出一些经验供认知诊断分析者借鉴.Tatsuoka (2009,p.6)认为DINA模型没有使用Q矩阵理论.是否真是如此,要回答这个问题,需要清晰界定Q矩阵理论的外延.Q矩阵理论是“确定不可观察的知识状态并用可观察项目反应模式描述它们”(Tatsuoka,1995).Tatsuoka (2009 p.83)提出Q矩阵是联系不可
Q矩阵是进行认知诊断的基础,正确的Q矩阵是进行被试诊断分类的关键,Q矩阵的界定的复杂性限制了认知诊断在实际中的应用。现有Q矩阵估计和修正方法均是基于复杂的统计测量学知识,需要进行大量的运算。本研究受HCI(Hierarchy Consistency Index)指标的启发,开发ICC (Item Consistency Criterion)指标,提出一种基于得分矩阵的Q矩阵估计和修正方法,通过比较
认知诊断以微观认知角度对被试做出准确评估与反馈的优势在心理与教育测量领域中展现出巨大的发展潜力。但是,要利用这种优势就必须确保测验Q矩阵的合理性。以往研究构建测验Q矩阵主要依赖专家的经验,其缺点是专家的水平及意见统一与否会严重影响Q矩阵的正确性,而错误界定的Q矩阵会对模型参数估计和被试分类准确性带来严重影响。为克服该困难,国内外研究者相继开发出基于被试作答反应数据的Q矩阵估计方法,以数据驱动视角为
主观性试题因其具有的诸多优势常被用来测评考生的语言能力。复述是口语考试中的一种常见题型,它主要考查的是考生获取关键信息、语言表达和逻辑连贯等方面的能力。复述是MHK四级口语考试的第一种题型,主要用来考查少数民族大学毕业生的语言表达能力。目前,MHK四级复述题采用“2+1”的模式,已实现网上评阅,评分的质量得到了基本保障。但因复试题评阅的时间偏长,评分效率较低,加上评分员的疲劳效应等因素的影响,评分
以结构方程模型为代表的潜变量模型在心理学和社会科学各领域得到了广泛的应用。在传统的结构方程模型中,研究的样本通常假设来自同质性群体,然而这一假设在很多情况下并不成立。不同质群体的结构方程建模可以使用多组分析或多指标多因模型。不过这种处理的前提是存在明确的分组变量,只是更多时候,很难找到客观的外显分组变量,最常见的例子如心理疾病的分类诊断标准。在统计学上,为了处理潜在分组问题,研究者提出了多种统计模
评价测评工具结果的有效性,不能单从结构效度进行,还应评价该工具测得的分数与效标间是否具有某种实证关系,即效标关联效度;操作上,常通过目标结构与效标的相关系数进行评价。学界近年对共同方法变异的关注始于大量研究者发现不同心理变量间由于采用了相同的测量方法,其协方差中会包含共同方法造成的变异,得到有偏的相关系数,研究者可能得出不当乃至错误的结论。