基于集成学习的主观题自动判分算法研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:BecauseArc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网在线教育的快速发展,人们的学习模式逐渐地由传统的线下教育过渡到了线上学习,这一方面带来了大规模的线上判分任务,另一方面使得计算机自动评分相关的需求猛增。由于每道主观题都要由两名老师评分,成本很高,标准化的考试(包括笔试)变得越来越昂贵。当前现有主观题智能阅卷系统,主要通过正则匹配得分关键词的方式,完成判分。该判分方式存在判分精确度低、判分维度少、无法识别同义作答等问题。为此,本文提出了基于多模型特征集成的机器学习算法,克服了以上传统判分模型中的种种问题,高效地完成了主观题自动判分相关任务。多模型特征集成的机器学习算法是通过利用不同机器学习模型对相同数据样本提取不同维度特征,再利用相关机器学习算法完成相关预测的算法。本文研究了当前主要的判分方法,并进一步地定义了主观题判分问题。通过研究主观题判分相关逻辑,完成相应作答文本的数据处理,同时从多个维度提取了TF-IDF、Word2vec、LDA等表征语义的向量特征,并最终比较不同机器学习分类模型在当前特征上的预测的效果。实验结果表明在XGBoost模型上作答文本得分点预测精确率达到82%以上。通过本文提取出的多模型特征集成的机器学习算法,解决了传统判分模型中判分维度单一的问题;同时在判分过程中保证了判分高精确性;通过利用数值向量的文本特征表征方式,解决了同义作答无法被识别的问题。整体而言本文提出的基于多模型集成的主观题判分算法的判分效果明显,该算法实现了自动判分功能,提高了判分精确性,为解决大规模判分任务以及其他相关判分问题提供了可行性的参考价值。
其他文献
人脸识别作为目前最热门的生物识别技术之一。它已被广泛运用到安保、通行、司法等领域。但是在实际环境下人脸识别的准确率易受光照强度、姿态、遮挡等诸多因素的影响,因此
随着现代城市的发展,人均车辆拥有量的增加,交通堵塞逐渐成为影响城市发展的重要瓶颈。交通拥堵所造成的的通勤时间过长、资源浪费、环境污染问题日益受到关注。而在日常生活
复式交分道岔大量铺设在到达场、编组场和出发场等重要的衔接咽喉区,是室外结构最为复杂的道岔类型。作为实现铁路运输中行驶车辆线路变换的重要设备,在工作过程中复式交分道
高光谱遥感技术可以获取从可见光到短波红外甚至热红外波段范围内光谱分辨率为纳米级的图像数据,包含丰富的光谱、辐射和空间信息,可广泛应用在环境监测、军事侦察、地质勘探
高血压是危害我国公共健康的重大问题。我国城乡居民每年有近70万人死于心脑血管疾病,超过因病致死总人数的40%。在所有死亡病例中,有70%的脑卒中病例和50%的心肌梗死病例与
新型城镇化建设是“十三五”时期国家全面推进城乡协调发展、打造平稳发展格局的重要任务之一。而特色小镇作为新型城镇化的路径探索过程,其重要性不言而喻。习近平总书记指
脉冲星导航具有极其重要的战略意义和工程应用价值,是今后航天器导航的重要发展方向。X射线脉冲星导航的核心设备是脉冲星探测器,脉冲星探测器接收X射线脉冲星光子信号,记录X
金属-有机骨架(MOFs)是一种新型的固体多孔材料。由于其优秀的多孔结构,超大比表面积,以及孔道结构易调控修饰等有趣的特性,使得它们在气体分离,气体储存,催化,药物运输和传感
公路工程建设是一个高投入、工期紧、环节多、程序性很强的产品实现过程。交通运输部为改变我国传统“项目法人+社会监理”的公路项目建设管理模式中存在的问题,于2015年提出
视觉SLAM技术由于其传感器价格低廉以及环境感知能力强的特点正在被越来越多的用在低精度定位场景,作为感知手段可以为高精度定位系统提供丰富的环境语义信息,是最近的研究热