“教育考试网上评卷质量管理研究”成果公报

山东省教育招生考试院课题负责人杨帆助理研究员主持完成了《教育考试网上评卷质量管理研究》(GJK2017034)课题。课题组主要成员:邓欣、赖松青、杜永贵、汪亚敏、李小婷、王坤。

一、研究内容与研究方法

(一)研究内容

随着考试种类的不断增多、考试规模的不断扩大和现代化技术的发展,考试组织管理模式也发生了根本性的变革。考试必须体现时代要求和价值观念,顺应时势的进行自我完善是谋取自身发展的必由之路。信息技术的飞速进步和互联网技术的全面普及,使信息的处理方式、存储能力、交换速率产生了根本性的变化和质的飞跃,其应用成果推广的广度和深度不断跨越式多元化纵深型发展。教育行业改革也不可避免的受到其渗透式影响,新兴技术为教育现代化和考试信息化注入了新的活力,提供了新的选择,设计了新的方案,考试逐步进入信息化时代。

网上评卷是信息技术与教育改革融合的重要尝试,也是缩小主观题评卷误差的重要进步,通过对国内外大规模标准化考试网上评卷开展的实践情况进行梳理,厘清网上评卷工作原理和技术要点,明确网上评卷较传统阅卷模式在保证考试公平公正、高效优质、宏观可控、便捷精准、信息反馈方面的显著优势和突出贡献,同时对其尚待解决的问题和形成原因进行靶向分析。随着人工智能技术的发展、应用和推广,对教育考试的变革也带来重要的机遇,在评卷领域探索人工智能评分和网上评卷的融合,克服网上评卷面临的瓶颈问题,是未来研究的重要方向。

(二)研究方法

1.文献研究法。通过搜集、鉴别、整理文献,系统梳理有关理论基础,对教育考试网上评卷工作开展现状进行分析整理或重新归类研究,重点瞄准误差控制环节,掌握前人研究经验。

2.文本分析法。通过搜集各类文本性资料,如国家、省教育类考试关于网上评卷工作的文件、方案等,进行分析,研判政策方向和发展趋势。

3.调查研究法。通过发放自查问卷、考试现场观察和询问等方式,了解现有网上评卷系统使用情况、存在的主要问题、工作人员意见建议、系统升级方向、评卷教师体会等情况,获取第一手调查资料,经分析概括总结归纳后形成支撑课题结论的有关依据。

二、研究结论与对策

(一)网上评卷的优势

作为新兴评卷方式取代原有人工线下模式并迅速得到推广应用进而取得主导地位,网上评卷具有诸多显著优势:

1.保证评卷工作的公平公正

网上评卷的评卷人员不直接接触答题卡,答题卡扫描后按照规定的答题区域对各小题作答图像进行切割,屏蔽了考生的个人信息,评卷人员只能对固定题目的随机作答图像进行评阅,从源头上杜绝了考生信息的泄露。通过“多评”等机制设置,一份试卷可由多名评卷人员批阅,当两次得分数值差不超过规定阈值时,取平均分作为得分,若超过阈值,则自动提交第3人甚至第4人进行评阅,最大限度的避免了主观因素对于得分的影响,有利于纠正评分误差。

2.保证评卷工作的高效优质

3.保证评卷工作的宏观可控

网上评卷为解决评分误差这一难题提供了操作性极强的有效路径,整个评卷过程即为误差控制过程。通过在评卷环节引入监督制约机制,以压缩主观题评分误差空间并实现轮转环节的零失误;通过流程设计和评卷系统中先进科学的数理统计方法和测量规范,校正并实时监控和评测评卷人员的评卷速度、质量水准、整体进度等情况,具有宏观调控能力。

评卷前,通过试评对评卷人员进行全员培训,使之熟悉评卷系统了解操作要求,并根据评分细则进开展试评工作,经过系统检测认可通过,方可进入正评环节,实现了前期的宏观校正。评卷中,利用自评监控将一定比例的已评阅试卷隐藏分数后发回本人重评进行评分“一致性”检验,以衡量评卷的稳定性和客观性;利用评分曲线检查、“多评机制”、“有效卷”统计等多种形式、渠道和手段,在评卷环节开展无差别监督制约,实时监控全体人员评卷工作质量,全力解决趋中评分、主观感受差异等原因造成的评分误差,最大限度保证考生得分的客观、公正、合理,实现了评卷过程的宏观校正。

4.保证评卷工作的便捷精准

网上评卷系统具有成绩统计分析功能,批阅工作结束后,计算机可以立即自动合成考生分数;同时,还可以进行评卷情况和考生得分情况的全样本数据分析,即时调取各分数段考生分布、雷同卷零分卷满分卷等特殊试卷,进行某个评卷人员评分数值分布分析、整体工作效率分析等有关数据分析工作,实现了数据处理的高速、便捷、准确。

5.为教学和测量工作提供有价值的信息反馈

(二)网上评卷尚待解决的问题和原因

由于网上评卷较传统评卷模式具有显著优势,在当今的大规模标准化考试中,已成为整个考试流程的不可替代的重要一环。然而受技术水平、实施方案设计和评卷人员主观原因所限,网上评卷仍存在一些尚待解决的问题,这些问题是造成评卷误差的主要原因,厘清并解决这些问题对于促进评卷技术提高,推动评卷工作发展,维护考试公平正义具有重要的现实意义。

1.评卷软硬件配置存在不稳定因素

网上评卷数据通常采用专线线路的方式由中心机房的服务器连接至核心交换机,通过专用光纤传送至评卷点,一旦因市政等原因造成线路故障或者任意一台中心机房关联设备无法正常运转,则全部评卷工作将被迫中断。每次评卷前,都需要根据本次评卷任务量、参与评卷用户数量等条件重新准备服务器系统,进行参数配置,此项工作耗时较长,且一旦出现差错,将影响评卷工作的顺利开展。目前网上评卷整体网络架构设计对压力测试提供的数据依赖性较高,然而压力测试过程中的环境设计皆有规律可循,而实际评卷工作开展过程中,不同学科评卷工作量的峰谷规律技术人员一般难以掌握。

2.专家组指导作用发挥不明显

3.评分误差难以避免

标准化考试题型一般包括客观题和主观题两种,本研究所说评卷误差主要是指主观题评阅中出现的误差,即评卷教师判断下的考生得分和能反映考生真实水平的分数之间的差异。评分误差的影响因素主要有以下几种:

(1)标准答案与评分细则的局限性

评卷专家组根据试题特点、标准答案制定可参考性、可操作性强,便于推广应用的评分细则,评卷教师以评分细则为参考和指南对主观题进行评分。因此,标准答案以及评分细则能否完整真实的反映出试题考察的目的指向,并且通过评卷过程准确的在考生得分上体现出来,是传统评卷方式和网上评卷方式共同面临并亟待解决的问题。

标准答案与评分细则的科学性程度带来的误差在以下两种情形中表现较为明显:一是二者具有高度概括性和抽象性。主要多见于作文题等题型,考生的答案多样性明显,评卷教师对评分标准又难以把握,自由裁量空间大,主观偏好作用强,难以自始至终把握同一评分尺度。二是二者描述过度详尽要点设置过多。主要多见于主观性较高的分析题等题型,此类题目得分点多,总分值高,计分方式复杂,考生的答案冗长并且要点不明显,评卷教师难以顺利找出所有得分点并统筹衡量评分,由此带来评分误差。

(2)评卷教师业务能力的差异性

评卷教师专业素质是否过硬、教育培训水平的高低以及认知风格决定了对评分细则的把握程度以及运用的持续一致性,是影响评卷误差的关键。评卷教师必须熟悉评卷科目涉及的专业知识,具备充分的专业能力,才能够正确把握试题的命题意图、考察的知识方向,从而科学灵活的评价考生答案,合理判断并准确赋分,避免严苛呆板的机械给分。

(3)评卷过程中心理因素的诱导性

评卷教师基于“理性人”假设的前提被选拔参与评卷工作,然而他们除了具有相同的知识背景、文化传统等共性要件,还具有不同的成长经历、欣赏习惯、心态情绪等个性因素。不同评卷教师个体之间甚至同一评卷教师不同阶段之间,都可能因个人原因导致评分差异,其中,个性因素导致的评卷教师的心理差异是导致评分误差产生的最主要诱因。

①排位效应(rankingeffect)

②再认识效应(rerecognitioneffect)

从整体来看,每位评卷教师的心理素质、业务能力是相对稳定的,但是并不是一成不变的,人们对于事物或过程的正确认识,往往需要经过多次的再认识过程才能确立。在评卷过程中,随着评阅试卷数量的增多,不同考生的回答内容、回答方式会反过来影响评卷教师的思维,其对于评分细则的理解将在最初基础上连续不断的深化和更新,我们称之为“再认识效应”。这种过程性理解的进阶差异,会对评分的一致性带来一定程度的影响。

③晕轮效应(haloeffect)

晕轮效应又称光环效应,是指评卷教师对考生作答形式或内容的某一方面特征形成好的印象后,扩大到对考生作答整体的评分中去,以偏概全的打出分数。字迹干净整洁、字体规范美观的作答往往能够取得良好的评分印象,此类试卷最终判分结果往往高于单纯依据作答内容给予的评分,这是评卷中典型的晕轮效应。

④疲劳效应(fatigueeffect)

⑤趋中性倾向(neutraltendencies)

有研究表明,随着评卷工作的进行,同一位评卷教师评卷速度、出分率等会提高,但是会出现趋中评分倾向。趋中评分倾向指评卷教师在评卷过程中不打高低分,分数整体集中在中间分数段上下小幅度波动。趋中评分这种带有“平均主义”色彩的不严格的评分策略有利于评卷教师规避评分不一致的风险和争议,顺利通过单评、双评等评分一致性检验,但是将直接导致评价效度降低,影响考生真实水平的呈现,带来评分误差。

⑥极端性倾向(extremetendencies)

对于部分评卷教师,一旦接收到存在趋中评分倾向的监控反馈后,可能会出现矫枉过正的现象,即弱化评分标准的一致性,评出一定量的高分或者低分改善趋中评分趋势。此外,在作文等主观性较强题目的评阅中,评卷教师会受个人情感体验、文化认知、生活经历等因素的影响,对考生作答内容产生情绪共鸣或抵触,从而打出过高或过低的分数。

⑦异化的目标追求(thepursuitofalienation)

(4)评卷流程组织管理的专业性

(三)网上评卷误差控制措施

为提高评卷质量,保证考试信度,必须以评分误差控制为核心标的,创新手段革新措施,建立科学有效的防控管理体系,通过有效的流程控制和过程管理,使评分结果能够准确反映出学生的真实水平,发挥出考试在选拔和评价中的甄别作用。

1.科学制定标准答案与评分细则

科学合理的标准答案和评分细则是评卷教师在评卷过程中最重要的参考,是实现评卷公平公正的首要先决条件。标准答案应尽可能多的涉及回答角度,清晰详细地罗列答案的基本结构框架、重点内容,方便评卷教师了解题目考察意图并初步判断试题的难易程度,并制定评分细则。评分细则需要根据题目类型细化评分量表,给出每道题目的满分、得分、扣分规则等。一般来说主观题评分细则类型可以分为三类:分级评分、分步评分和要点评分。分级评分适用于主观性强、开放性大的题目,如作文等,这类题型评分细则要细化评分等级,每个等级均须明确赋分要求、分数区间。分步评分适用于答题步骤明确的题目,如计算类题目等,这类题型评分细则要明确步骤节点,以及每完成一个节点考生可得的相应分数。要点评分适用于主观性较强、半开放式的题目,如案例分析等,这类题型评分细则要明确所有得分要点及对应分数。

2.建立一支高素质评卷教师队伍

评卷教师是评卷工作最关键的载体,既是主要参与者更是实际操作者,建立一支高素质的评卷教师队伍,是实现评分公平公正的基本保证,因此对于参与评卷的教师,必须经历严格的遴选和培训。

严格的选聘控制能够初步淘汰不适合网上评卷的教师,但并不等同于选拔出的人员都能够优秀的完成工作任务。部分评卷教师对于网上评卷工作不够熟悉,应对即将面临的困难和挑战准备不足,对评卷工作的严肃性和重要程度认识不到位,单凭个人理解掌握评分要求不准确,仍然不能满足评卷工作需要,因此遴选结束后必须配套做好培训工作。培训的要点应包括以下两方面内容:一是要对评卷文件、评卷系统使用方法、评分标准等业务知识进行重点讲解指导;二是要同步给予思想政治教育、安全保密教育和遵章守纪教育,提高评卷教师的对评卷工作意义和重要性的认识,明确纪律要求。

3.合理设置评分方法

(1)明确多评控制标准

多评机制是控制评分误差的有效方法。双评由两位评卷教师进行独立评分,所评分数之差为双评差值,其允许存在的极限差为双评差值阈限。当双评差值小于阈限时,评卷系统以两位评卷老师的平均值作为最终得分。当双评差值大于双评差值阈限时,该答案分发给第三位评卷教师进行三评。

《国家教育考试网上评卷统计测量暂行规范》规定:“评分过程中,双评差值阈限一般不能大于题目满分的1/6”。一般情况下将题目满分的1/6—1/5作为实操过程中的最大允许上限。但是仅有差值阈限最大值的限制性不足以满足评卷误差控制的操作需要。评卷专家组对不同考试题目的理解和误差包容度不同,差值阈限的设置尺度并不统一。双评差值阈限应尽可能详细地提供差值阈限设置采用的计算方式方法,而不是仅仅提供上限值。研究显示,在相同信度水平的条件下,测验分数分布(尤其是标准差)决定着差值阈限的大小,评分差值阈限的基线值应为1.24倍的标准差。

(2)合理设置单题时限

(3)重视试评的积极作用

4.构建质量检验评价体系

为保证评卷质量,应综合利用多种评测手段,建立多维度质量检验评价体系,实现对所有评卷教师的工作开展情况的追踪和检查,进而判断每位教师评分的宽严程度、趋中打分倾向、评卷速度等。一旦发现异常,学科组组长可提醒评卷教师及时修正、调整,确保评卷高质高效进行。组成评卷质量检验评价体系常用的技术手段有评分结果分布曲线检验、评卷质量抽查、评分一致性检验、异常得分率检查、异常卷判定检查等。

(1)评分结果分布曲线检验

正常情况下,每位评卷教师的评分结果分布曲线应该呈现正态分布趋势,通过评卷系统内置检验模块调取个人和小组评分结果分布曲线并过滤出异常曲线,可以直观的对比检查同组个人间和个人与小组整体间的差异,从而实现评卷质量异常检查。

(2)评卷质量抽查

质检组和学科组组长可以对已评试卷进行随机抽样,结合评分细则、考生答案对评卷教师打分的恰当性进行人工检查,对不符合评分细则和尺度的试卷采取返回重评处理,从而实现对部分偏离规则的评分予以纠正。

(3)评分一致性检验

单评或多评机制均适用于评分一致性检验。对于分值较低的题(一般是低于30分),可将评卷教师已评阅的试卷再次发还本人,通过检查两次评分结果的差异是否在规定范围内,来判断该评卷教师的评分质量和稳定性。对于分值较高的题,可随机分发给两位不同的评卷教师进行评阅,如果两位教师的评分差距在误差控制阀值内,则评分具有一致性,分数采取两个分值平均分;如果超出这个范围,则发给第三位教师进行评分,直到评分具有一致性。

(4)异常得分率检查

(5)异常卷判定检查

一般情形下,下列几种情况的试卷视为异常卷:一是未按规定用笔作答的,二是笔迹前后不一致的,三是在答题卡做有特殊标记的,四是客观题雷同程度超出合理范围或主观题答案及文字表述高度一致的等。在评卷工作中,一旦发现异常卷,评卷教师可以对其进行标注,被标注的试卷最终将提交给学科组长或者质检组专家进行检查核实。

5.强化评分过程反馈交流

在线实时监控模块可以及时发现异常情况纠正偏差,但其效用应不止于此,异常反馈的过程不仅起到纠错纠偏的作用,更能促进不同评卷教师之间、评卷教师与学科组长之间的交流互动,可以帮助个体人员以更宏观的视角来把握个人工作开展情况,突破自我局限。评卷过程是相对独立的个体行为,评卷教师相互之间交流沟通比较少,个人对整体平均分、全局速度等的把握更无从谈及。此种认知盲区可能导致个别评卷教师对评分细则执行不到位、评分尺度把握不适度或过于追赶进度等问题。如果能够按照评分阶段将平均分、平均评卷速度、标准差等数据适时地反馈给评卷教师,使其能够了解自己以及其他评卷教师的评分情况,从而及时调整评分策略,实现评分细则执行和评卷速度掌握的双优化、双促进,达到提高评卷工作的科学性和规范性,减小评分误差的最终目的。

6.完善网上评卷组织体系

网上评卷工作是一个多环节相互关联的有序过程,科学、严密的组织体系是保证阅卷质量的有力保障。网上评卷工作组织体系包含了组织结构、工作模式、质量管理等多环节的布局设置,是评卷自身实施和发展的诉求。

7.严格网上评卷管理制度

合理的管理制度可以简化管理过程,提高管理效率。在其适用范围内具有权威性和相对稳定性,一旦形成,不能轻易变更,更不得随意修改和违犯,通过强制约束力作用的发挥可以显见的保证工作的有序和高效运转。

(四)网上评卷未来趋势展望

人工智能技术正在全面、深刻地影响着教育理念和教育模式的发展,对考试测评更是产生了巨大的影响。随着高精度的手写文字识别、自然语言理解、智能评测等技术的发展,网上评卷通过人工智能评阅主观题已经成为可能。建立在文档图像识别技术、深度神经网络建模评分模型训练和多维度计算机智能评分算法基础上的人工智能辅助评分研究正在教育考试评卷过程中进行着积极的应用探索。

未来大规模标准化考试网上评卷工作实施过程中,根据不同的考试形式,将人工评分与人工智能技术相结合,形成多样化的人机协作评分模式,可以大大降低人工工作量和评卷成本,提高评分的准确性和一致性,辅助提升人工评卷的科学性和公正性,更好的实现对阅卷过程的质量监控和考试成绩的定量分析,将是考试组织方式的一项重大革新。在高利害的大规模考试评卷中,让考生、家长和社会接受人工智能评卷方式需要长期的认知接受过程,更需要科技的不断进步以提高人工智能评卷的准确度和精度。人工智能向应用成果的转换还有很长的路要走,是考试机构未来的一项重要研究课题。

三、研究成果与影响

基于课题的研究共形成论文2篇,对未来网上评卷误差的控制和网上评卷工作的进一步发展提供了可参考的依据,论文发表情况如下:

(一)杨帆、邓欣《网上评卷评分误差源起及控制路径选择》发表于全国中文核心期刊《教学与管理》,2020年6月。

(二)杨帆《大规模标准化考试网上评卷实践探究及未来路径选择》发表于《中国多媒体与网络教学学报》,2020年9月。

THE END
1.减分成功为什么系统显示还是3分?尽管减分操作已经成功,但系统显示仍然是3分,这主要是由于系统更新存在延迟,通常在48小时内可以完成更新。接下来,让我们更详细地了解一下“学法减分”的相关内容。 “学法减分”是一项为持有驾驶证的驾驶人设计的措施。当驾驶人因交通违法行为被记分时,他们可以通过参加网上交通安全学习并考试合格来减免记分。这项措施https://www.autohome.com.cn/ask/1272706.html
2.学渣觉醒考试系统,739分,震撼全场她739 分的成绩出来的时候,全校都震惊了。 这个分数是毫无疑问的全省状元。 比我这个全级第二名高出五十多分。 校长怕学校摊上事,把章雅琪平时的学习情况主动上报了。 教育局调出章雅琪的考试录像,阅卷小组重新检查了她的高考试卷,甚至跟她平时的字迹也进行了比对。 最终确认,试卷是本人答的,没有任何说明她作弊https://baijiahao.baidu.com/s?id=1778028539345692905&wfr=spider&for=pc
3.超级考试系统小说免费阅读超级位面系统 君王李|诸天无限|完结 资本论说当利润达到三倍的时候,资本就会践踏人间的任何法律。如果有人跟李牧说他投资一百万用了一年赚到了一千万,十倍身上携带着超级修炼系统,就算是灵根全无,天生废柴,也可以到达至高境界。别人苦心修炼,他依靠系统点数一路高歌!挥手间碾压异世无数天才。小世界有我无敌,https://www.qidian.com/soushu/%E8%B6%85%E7%BA%A7%E8%80%83%E8%AF%95%E7%B3%BB%E7%BB%9F.html
4.个性化设置在线考试系统,满足多元化需求三、数据分析与反馈 考试后的数据分析对于提高教学质量至关重要。在线考试系统配备了强大的数据分析功能,能够自动生成考试成绩统计、学生答题情况分析以及知识点掌握度报告等。这些报告不仅有助于教师快速识别学生的薄弱环节,进而调整教学策略,还能为教育机构提供有价值的教学反馈,促进教育质量的持续提升。 https://www.kaoshixing.com/news/n3117
5.青海省人才人事政策“百问百答”答:一是申请人必须在专业技术岗位工作;二是现聘任岗位专业、拟转换职称专业及所学专业应相同或相近;三是申请人在拟转换职称系列专业技术岗位工作满1年,且年度考核合格;四是申请人须完成转换当年或上一年度规定的继续教育学时;五是教师转系列须取得拟转换系列所应具备的教师资格证;六是国家明确规定的以考代评系列暂https://www.xntv.tv/qh/164696
6.广东省2023年成人高考报名常见问答广东省教育考试院(三)统考科目按教育部颁布的《全国成人高等学校招生复习考试大纲》(高等教育出版社,2020年版)要求命题。各统一考试科目试题满分成绩均为150分。高起本、高起专的统考科目每门考试时间为120分钟,专升本每门科目考试时间为150分钟。 (四)报考艺术和体育专业,需加试专业课。专业课考试均由各招生学校自行命题和组织考试http://eea.gd.gov.cn/crgk/content/post_4254136.html
7.科三考了85分居然合格了?科目三系统是谁控制的?科目三系统是谁控制的? 科目三考了85分,居然显示通过了,这种情况一般来说是电脑的系统出现了误判导致的,出现这样的现象,一种情况就是学员已经通过了考试,但是电脑的系统给出的分数要比通过的分数低一点。 另外一种就是分数确实是85分,但是系统直接就误判通过了。这种时候就要在考完之后的几天内,去查看一下成绩,https://www.yoojia.com/ask/3-11789926215236677061.html
8.法制理论知识考试系统法制理论知识考试系统,元贝驾考官网为您准备了法制理论知识考试系统随机试题模拟考试训练,您需要在规定时间内完成给定的法制理论知识考试系统答题。要继续进行更多的法制理论知识考试系统练习,只需在答题结束后点击重新出卷按钮。元贝驾考官方网站助您考试成功早日拿证! https://www.ybjk.com/ks/qdfqm.htm
9.才茂智能驾考系统科三考试无线联网解决方案随着汽车保有量的不断增长,驾驶人员的培训考试市场也迅速增长,传统的驾考科目三考试系统主要以在考试线路沿途布设大功率WIFI 基站来传输车载监控信息的传输,存在基站布设成本高、施工周期长、维护成本高等问题,随着市场的发展问题日益突出,部分省份的交管部门要求科目三考试必须有多条备份线路,这样建设成本就更高了,因此https://www.caimore.com/Archives/IndexArchives/index/a_id/1254.html