我院13级电子专业80名学生的高等数学成绩:
二、数据分析
假设高等数学考试内容与教学大纲一致,试卷质量良好。
(一)均值
实践表明,若70
(二)离散度
标准差S=是描述学生考试成绩离散程度的最常见、最重要的统计量。标准差越小,表明成绩越集中;标准差越大,表明成绩越分散。一般认为,标准差S=10较为适中。我们利用Excel软件中的统计函数VAR对上述数据进行计算,得S2=231.8783,则S=15.22755,可见成绩离散度偏高,这说明学生高等数学学习情况差异性较大。
(三)偏度
如果试卷内容设计合理,学生的成绩会服从或近似服从正态分布。一般来说,当偏度系数g1=0时,学生成绩呈标准正态分布;当g10时,曲线向右偏,即呈正偏态分布,表明高分段人数较多,低分段人数较少。我们利用Excel软件中的统计函数SKEW对上述数据进行计算,可得偏度g1=-1.81536
(四)峰度
峰度系数(g2)可以定量描述正态分布的陡峭程度。当g2=0时,成绩服从标准正态分布;当g20时,曲线呈尖峰态,显得较陡峭,表明学生成绩分布较集中。我们利用Excel软件中的统计函数KURT对上述数据进行计算,可得峰度g2=4.57311,这表明学生成绩分布较为集中。
三、教学评价
从上述考试成绩分析不难看出:(1)学生的学习状况。我院电子专业大多数学生已经掌握了高等数学的基本知识,且成绩较为集中,但学生个体差异较大,个别学生成绩过低。(2)教师的教学效果。教学过程中,教师重视基本概念、基本理论的教学,注重学生基本技能的培养,但对个别落后生关心不够。针对这些情况,教师应稍微调整一下自己的教学方式方法。在培养学生基本技能的同时,应拔高尖子生,提高落后生,从而提高教学质量。
四、结语
参考文献:
[1]贾俊平.统计学[M].清华大学出版社,2008.
[2]岳粮跃.Excel在学生成绩统计分析中的综合应用[J].广西大学学报(自然科学版),2007(S1):197-199.
[3]卢越萍,林企.微机自动选题及学生成绩分析系统[J].信息与控制,2008,(05).
关键词:护理专业;妇产科护理;成绩;分析与评价
1对象与方法
2结果
2.1成绩分布本次妇产科护理考试参加人数为271人,其中,中职起点班131人,最高分90分,最低分37分,平均分65.36分;普高起点班140人,最高分93分,最低分46分,平均分76.65分。考试成绩各分数段分布见表2。2.2成绩分析表2显示,普高起点班和中职起点班的绝大多数学生分数集中在70~89分数段,成绩呈正态分布,能反映大多数学生妇产科护理基本知识和技能的实际掌握水平。从高分数段(80分以上)人数和及格率来看,普高起点班的高分数段人数明显多于中职起点班,及格率也明显高于中职起点班。
3讨论
从考试成绩分析结果可以看出,普高起点班与中职起点班学生妇产科护理考试成绩存在显著性差异,究其原因主要有以下几点。3.1基础知识和自主学习能力普高起点班学生所学科目较多,基础知识相对较扎实,思路开阔,适应能力、自主学习能力较强;而中职起点班学生未经过高中阶段的学习,基础知识欠缺,而且由于受专业限制,知识面相对较窄[2],思考问题的深度与广度不够,思维方式较固定,容易被以往的教学方式桎梏,形成定向思维,自主学习能力相对较差。3.2学习目标和学习态度普高起点班学生在高中阶段未接触过医学科目,尤其是妇产科护理,加之绝大多数为女生,对妇产科护理有浓厚的兴趣,学习目标明确、态度端正、上课认真、缺勤较少,能按时完成作业,课后主动温习功课,即使遇到困难也能迎难而上,考前能根据教师讲课重点进行全面复习,认真应考。而中职起点班学生在中职阶段已经初步学习了妇产科护理的基本理论和基础知识,学习兴趣较低,学习态度不端正,组织纪律性差,上课缺勤较多,课堂参与度不高,甚至有少数学生对考试成绩持无所谓态度。
4思考与对策
[1]张志祥,李志芬.运用试卷分析提高题库命题质量[J].西北医学教育,2004,12(2):107-108.
[2]陈建梅.国内护理临床教学方法现状[J].护理学杂志,2003,18(4):316-317.
关键词:考试管理教学事理管理提高质量
Keywords:TestmanagementTeachingaffairsmanagementEnhancequality
试卷抽检我们主要按公共必修课、专业基础课、专业课、选修课四大类按比例随机抽取课程试卷。在取样群体方面全面涉及各系、各年级;样本数上,一般是专业基础课和专业课按参考人数全抽、公共必修课按一个系一个年级全部抽检、选修课按参考人数60%抽检。抽检测评点主要从六个方面进行:①试卷的命题质量;②教师的阅卷水平;③试卷难度(小题难度和试卷平均难度);④试卷区分度;⑤考试平均成绩、及格率;⑥学生考试成绩分布状态。其中,第①②项由教务处组织专家根据评估指标进行测评,第③~⑥项由教务处根据教育测量学、教育统计学原理开发的“考试质量分析系统软件”完成,考试工作质量评估我们主要依据所建立的评估指标体系进行测评。
检查的结果基本情况是:①75%的课程情况良好:试卷命题符合教学大纲,无偏题、怪题;试卷综合效度均在0.4~0.7之间;学生考试成绩呈正态分布;平均成绩、及格率比较理想;教师阅卷比较客观、公正,无多加少算现象。②考务工作通过严谨的试卷管理程序、严格的考场次序以及考后工作的认真组织,此项工作评估成绩较好。但是,部分课程评估的结果却不令人乐观:①命题质量、试卷综合效度不高。其中命题难易程度掌握不准显得特别突出,由此产生试卷难度系数悬殊较大、考试成绩不理想,及格率偏低,学生成绩分布曲线呈偏态分布;②教师阅卷评分宽严尺度把握不准;③个别课程试题库管理不规范。本文试图通过我校考试工作的具体实践,主要探讨:①提高命题质量;②加强考试组织管理工作;③建立和完善试题库;④建立考试工作质量评价及信息反馈系统。
1.提高命题的质量是提高整个考试质量的关键
命题是一项复杂的智力劳动,考什么和怎样考对学生起着“指挥棒”的作用。如果考题只要求记忆教材便能作答,就会导致学生养成死记硬背的学习习惯,抑制学生分析、归纳、综合、创新能力的培养;如果考题不要求掌握基本观念、基本原理,只凭常识就可以作答,就会使学生不重视复习,依赖于临场发挥。因此,必须十分认真慎重地对待考试命题,正确发挥考试的导向作用。编制一个好的试题和一份好的试卷,不仅要求命题者完全熟悉考核课程的全部内容,还要具有一定的命题技巧。那么,什么样的试题才算作“一道好试题”?什么样的试卷才算作一份“好试卷”呢?
笔者认为,不论何种题型,一道好试题,除了题目本身的科学、合理外,还应该同时具备这样几个条件,符合这样的要求:①按照教学大纲要求,不出超纲题、偏题、怪题和没有考查意义的题目,这是一道好的试题必须具备的首要条件。②试题的形式要灵活:问题的提出要有创新感、问题的含意需明确、多角度提出问题。③试题的正确答案是有定论的,而不是模棱两可。④有适当的难度和较高的区分度。
此外,一份好试卷,不论它由何种题型所构成,除了每一试题都科学、合理外,还应具备下述条件,符合下列要求:
第一,试卷中试题以课程教学大纲作为基本依据,试题应能体现教学大纲的基本要求。
第三,试卷中试题不应当是课程教学内容的简单重复,而应该是在原来基础上的提高。为此,试卷中只需要机械记忆和简单模仿便能作答的题目应尽量减少,大量的试题应该是需要学生经过分析、综合、归纳才能作答的。
第四,试卷中试题量不宜过大,但是题目的数量要适当多一些。多少称为试卷的长度(一份试卷中试题数量的多少称为试卷的长度),对提高考试的信度是有利的。
第五,试题独立性与试卷整体性相结合。在一个题目中考过的内容,其它题目不应重复,题目之间不可互相暗示,保持题目独立性是为了判定学生对课程各个内容的掌握程度。另一方面,还应照顾试卷的整体性,考题间要有分值大小、难易程度、费时多少的合理搭配。
第六,立足考试对象的知识基础,正确把握试题的难易度比例,掌握好合格的标准线。教育部原总督学柳斌同志曾说过:“素质教育的第一要义是面向全体学生”[1],我们推行素质教育就不能不正确把握试题的难易度,大面积高分或大面积低分不仅会影响考试可信度,而且会诱使考生产生某些本可避免的心理问题。所谓考题必须面对全体考生,并非指不顾质量和大纲的要求,而是指面对考试对象知识基础的实际,从一个水平提升到另一个更高水平要有一个过渡期,要有一个相对应的、适合考试过渡的“面”,力求使成绩合格的都能达到合格的标准线。一份科学合理的试卷在试题量及其难易的程度上应呈正态分布。容易题目、较容易题目、中等题目、较难题目、很难题目各占比例分别为5%、15%、60%、15%、5%。
如果违背了上述基本要求,考题出得过难或过简单,其通过考试检查学生的学习情况与教师的教学情况都会存在问题,考试的科学性和作为检验教学状况的可信度,将会受到怀疑。在试卷抽检总结会上,学校对《结构设计原理》等10门课程试卷给予了充分肯定,理由是:这些试卷命题时不仅体现了小题质量要求,而且整套试卷“质”和“量”都令评估专家满意,抽检结果所反映的各项参数都符合教育测量学原理。相反,《审计学》课程试卷虽然102个抽样样本平均成绩79.5分、及格率达到971%,却被要求限期整改,原因是:①试卷难度偏底,平均难度系数只有0.215;②小题难度系数区间为:0.290~0.079;③试卷综合效度0.275;④学生考试成绩呈正偏态分布。
2.加强考试组织管理工作是提高整个考试质量的保障
考试组织管理工作也就是通常所说的考务工作。它的具体目标是:使考试能够正确地实施,顺利地进行,减少和避免各种偶然因素和工作过失对考试的干扰,保证考试过程的客观性、可靠性;同时,尽量减少考试过程中人力、物力和财力的消耗。做好考试的组织管理工作对于保证和提高考试的可靠性和有效性具有重要的意义。
转贴于我校在考试组织管理工作方面,应主要抓住三个阶段性工作:考前阶段、考试阶段、考后阶段。
2.2考试阶段:很抓监考人员的选聘和培训工作,学校抓考场纪律,院(系)抓考试动员和考试规章制度的学习。该阶段工作质量强调的是:考场编排的准确性和考场纪律的严明性。
2.3考后阶段的主要工作是试卷评阅的组织和考试成绩的统计、分析与处理。对于教师的阅卷水平和课程考试质量,每期都要进行试卷抽检,并将结果在全校公布。该阶段工作质量强调的是:试卷评阅的客观、公正性和成绩分析、处理的科学性。
加强考试组织管理,做好三个阶段性工作,必须建立相应的考试管理机构;建立一支素质高、精通业务的考试工作队伍;建立一套严密的规章制度。为此,我校教务处“教学质量科”和“考试中心”对考试的组织和试卷抽检全面负责。
3.建立和完善试题库是促进考试工作向科学化、标准化方向发展
试题库,就是归类储存质量合格的各种试题的仓库。题库的建立和完善是使考试向着科学化、标准化方向发展的重大工程,是高等学校深入教改的重要步骤。当然,高校课程繁多,要求所有课程都建立题库是不现实的,也不经济,但对于一些大面积的课程(如:公共必修课、专业基础课)建立试题库是很有必要的。
我校在建设试题库方面,作了以下七条规定:
一是在题质上难易适度的原则:每一个试题都应该有合适的难度和较高的区分度;试题的各项参数要准确,用语要准确,并备有答案和评分规定。
二是在题量上要有一定程度覆盖率面的原则:所储试题的总目能够覆盖教学大纲要求掌握的这门课程的全部内容,有多角度考查的内容和从不同角度考查的试题。
三是组卷形式上的科学规范原则:目前采用计算机组卷是可行、科学的,但是试卷的难度把握一定要准。
四是在管理上要遵循便于统计、检验和质量分析的原则:试卷的成绩要便于进行统计、检验和质量的分析与评价。
六是要具备教学大纲、教材等考试命题材料和题库组建使用的详细材料。
七是与时俱进的原则:题库在使用过程中,还要根据使用的实际情况、学科的发展、考核对象变化等不断地补充、修改和更新。
4.建立考试工作质量评价及信息反馈系统推动考试质量不断提高
任何一项有意义的工作,工作结束之后都要进行一番总结,评价工作的质量和实际效果,鼓励先进,找出问题并加以解决。考试也是这样,一次考试之后,考务工作是否达标?学生成绩有多大的可靠性?教学计划和教学目标实现到何种程度?哪些试题质量较好,好在哪里?哪些试题较差,差在何处?这些都需要进行总结和评价。评价的目的在于为改进今后考试工作、提高考试工作质量提供重要参照系数。
我校在建立考试工作评价及信息反馈系统方面,做了以下工作:
(1)从考试设计、考试组织管理、命题、题库建设、考试质量、学生成绩分析六个方面建立评估指标体系。
(2)对于评估的结果学校每学期召开专题工作会,将存在的问题通过《意见反馈表》通知课程负责人和课程所在系(部),要求提出整改意见,限期整改,学校按照整改意见定期组织人员检查落实情况。
评价项目评价内容评价方式考试设计
工作①考试目标、内容和考试标准的制定;②考试方法和类型的选择;③命题计划的编制。考试组织管理工作①试卷编、印、送的管理;②考场编排;③试卷装订;④考场纪律、秩序;⑤阅卷、评估。建立考试管理机构
组织管理人员根据评估指标体系测评命题质量①试题质量;②试卷质量。题库建立和完善①题库的建立;②题库的完善。组织课程专家根据评估指标体系测评考试质量①考试效度;②考试信度。学生成绩分析①平均成绩;②及格率;③成绩分布曲线。运用教育测量理论开发评估软件,利用计算机统计处理考试作为高校教学管理工作的重要内容之一,是一项系统工程,考试工作质量的全面提高需要学校各教学单位和全体教师的精心协作和紧密配合。随着高校考试评估体系的不断完善和认真组织落实,考试质量将会得到不断提高。
【关键词】模糊聚类:遗传算法;FCM算法;考试分析
ApplicationofFuzzyClusterAnalysisinStudent’sExamResultsBasedonGeneticArithmetic
ZhaiJian-feng
(ComputerCenter,ChinaYouthUniversityForPoliticalScienceBeijing100089)
【Abstract】GeneticalgorithmcansolvethefuzzyC-meansclusteringalgorithmtoinitializethesensitiveissue.CombininggeneticalgorithmwiththeFCMnotonlyplaysthegeneticalgorithmabilityinglobaloptimization,butalsotakesintoaccountthecapacityoflocaloptimizationofFCM.Henceitcanimprovetheconvergencerateandsolvetheclusteringproblembetter.Theempiricalstudyshowsthatthementionedalgorithminthepaperisusedtoexaminationresultsforfuzzyclusteringanalysis,bringtolightthelevelofknowledgeandcapabilityofstudentsmoreobjectivityandmorecorrectly,thefuzzyclusteringresultsreflectthesignificanceandroleoftheTeachingandLearning.
【Keywords】fuzzyclustering;geneticalgorithm;FCMalgorithm;examinationanalysis
0引言
考试作为教学管理过程不可或缺的环节之一,具有教与学的双重功能,既是对学生应掌握的知识和能力的测试,也是对教师教学质量和效果的同步检验。为充分发挥考试的效能,综合评价命题质量,及时反馈教学效果,沟通教学信息,教学部门对考试成绩进行统计分析和总结是非常必要的。如果只统计考试成绩,不分析试题、试卷和考试过程,则无法确认成绩的可信性和有效性,因此把数据挖掘技术引入到考试成绩分析中,找出影响考试的真实原因,有针对性地指导教学,提高教学质量和教学效果。
本文利用学校大一学生某学期《大学计算机基础》的期末考试成绩,采用基于遗传算法的模糊聚类进行考试成绩分析,分析结果可以更好的评价学生对不同知识点的掌握,同时指导教师的教学活动。
1基于遗传算法的模糊聚类算法
1.1模糊C-均值算法(FCM)
模糊C-均值算法把n个向量xi(i=1,2,…,n)分为c类,采用模糊矩阵U=(uij)描述,使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。其中uij是矩阵U的第i行,第j列元素,代表xi属于第j(1荞j荞c)类的隶属度,且uij=1。
FCM算法是一个简单的迭代过程,用下列步骤确定聚类中心ci和模糊矩阵U:
步骤1:用[0,1]间的随机数初始化模糊矩阵U,使其满足uij=1,0
步骤2:用ci=计算c个聚类中心ci(i=1,2,…,c);
步骤3:根据J(U,c1,…,cc)=Ji=ud计算目标函数。如果它小于某个确定的阀值,或它相对上次目标函数值的改变量小于某个阀值,则算法停止。这里uij介于0,1间;ci为聚类中心,d=||ci-xj||为第i个聚类中心与第j个数据点间的欧式距离;且m∈[1,∞)是一个加权指数。
步骤4:用uij=计算新的U矩阵。返回步骤2。
1.2基于遗传算法的模糊C-均值聚类
FCM算法采用一种迭代的爬山方法来寻找最优解,因此对初始化非常敏感而容易陷入局部极小值。遗传算法是一种应用广泛的全局优化方法,利用交叉操作和变异操作可以将个体之间的信息进行交换,通过多次迭代得到最优解。因此将遗传算法和FCM算法结合起来,利用遗传算法的全局优化能力更好的进行聚类分析。
遗传算法一般需要进行以下几个操作:首先采用合适的方法将问题的解编码到基因串中,即将种群进行初始化;设置合适的适应度函数,并根据适应度函数值的大小挑选个体进行选择操作、交叉操作和变异操作等进行一代一代的演化,逐步逼近问题的最优解。因此需要根据不同的优化目标,对遗传算法的染色体编码、适应度函数、遗传操作以及停止准则进行相应的分析设计。
关键词数据挖掘决策树成绩分析
中图分类号:TP311.13文献标识码:A
随着我国高等教育信息化建设的快速发展,许多高校都已经建立起了校园精品课程、数字化图书馆、网络实验室等信息化应用,在知识共享上不断完善求新。同时,校园服务、校园信息、在线教学等数字化校园平台的建设实现了数据的共享与系统的整合。
传统的学生成绩分析还停留在简单的查询及简单的数字统计阶段。如查询某个学生的某门课程的成绩,统计某门课程的优、良、中、差各个成绩段的学生人数,统计成绩的均值、方差、置信度等。己有的分析研究仅仅从理论上对可行的评价机制进行讨论,而隐藏在这些数据后的其他有用信息很难能够发掘出来。
另一方面,信息化应用中获取的大量教学信息使得各种新的属性不断出现,增加了学生的信息存量,大量的学生信息以及学习数据没有发挥其相应的作用。这些信息从一定的角度上反映了学生在新的教学模式下所特有的学习行为,为研究学生的学习行为提供了依据与基础。本文就是在这些大量的数据基础上,结合数据挖掘的决策树分类技术,从学生的学习成绩入手,收集、整理和分析学生的行为信息,总结和发掘在新的学习模式下对教学质量及其学习效果的影响,为教师日常教学和学生学习的改进提供依据。
1数据挖掘技术综述
数据挖掘(DataMining),就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信的信息和知识的过程。是一门广义的交叉学科,它的发展和应用涉及到不同的领域,尤其是数据库、人工智能、数理统计、可视化、并行计算等。
数据挖掘技术有两大基本功能,即描述功能和预测功能。描述功能是指描述数据库中数据的一般性质。预测功能是指对当前数据进行推断,以便做出预测。
数据挖掘研究的对象是大量隐藏在数据内部的有价值的信息,如何获取有价值感兴趣的信息是我们所要解决的主要问题。接下来简单介绍数据挖掘中应用较为广泛的常用的一些技术。
1.1决策树方法
决策树算法的目的是通过向数据学习,获得输入变量和输出不同取值下的数据分类和预测规律,并用于对新数据对象分类的预测。
1.2关联规则
关联规则用来揭示数据与数据之间未知的相互依赖关系。由一个条件和一个结果组成的,形如IF...THEN的简单形式就叫做规则,关联规则挖掘就是扫描整个数据集,从中找出具有给定的最小支持度和最小置信度的关联规则。其中最具代表性的是R.Agrawal提出的Apriori算法。
1.3神经网络
神经网络是以人脑为基础的抽象模型,它模拟真实人脑神经网络的结构和功能,将众多结构和功能极其简单的神经元通过各种方式联接成一个复杂的网络结构,以实现复杂的智能行为,构成一个类似于人脑结构的非线性预测模型,通过学习进行模式识别。神经网络具有两大特点――自学能力和自适应能力。
1.4聚类分析
聚类是将数据集分成若干不同的类,使得在同一类的数据对象尽可能相似,而不同类中的数据尽可能相异。聚类与分类的根本区别在于:分类需要事先知道所依据的对象特征,而聚类是在不知道对象特征的基础上要找到这个特征。
以上介绍了数据挖掘的基本知识,包括数据挖掘的概念、数据挖掘的功能、数据挖掘的过程及步骤,以及数据挖掘中常用的各种技术。而且现在的数据挖掘软件,不管是开源还是商用都已经很成熟了,也提供易用的可视化界面,集成了数据处理、建模、评估等一整套功能。本文尝试使用Spssmodeler[7,8]数据挖掘工具,采用决策树分类技术,对所采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。
2高校学生成绩的决策树模型
2.1决策树技术
决策树技术是通过学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对测试集的分类预测。它主要由两个阶段组成。
第一阶段,建树阶段。选取训练数据集进行学习,导出决策树。建树的流程图如图1所示:
第二阶段,剪枝阶段。用测试数据集检验决策树,如果所建立的决策树不能正确的回答所研究的问题,我们要对决策树进行剪枝以解决过分适应数据的问题,直到建立一棵正确的决策树。剪枝的目的是降低由于训练集的噪声而产生的起伏。
决策树技术之所以是数据挖掘领域中运用较多的分类和预测主要技术,原因有三:一是决策树构造的分类器易于理解;二是采用决策树分类,其速度快于其他分类方法;三是采用决策树的分类方法得到的分类准确性优于其他方法。
SPSSModeler提供了包括C5.0、CHAID、CART和QUEST在内的经典决策树算法,C5.0是在决策树的ID3算法基础上发展起来的。决策树的核心问题之一是决策树分枝准则的确定,C5.0以信息增益率为标准确定最佳分组变量和分割点。其关键的概念是信息熵。
2.2学生成绩分析
分析影响学生成绩的因素,可以通过数据挖掘技术从定量的角度精确展现学生成绩分析的多个方面,找出影响学生成绩的主要因素,以此来帮助教师和教学部门制订相应的措施,有利于提高教学质量和增强教学效果。因此,本文采用SPSSModeler14.1数据挖掘工具,对采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。具体的信息挖掘的操作步骤如下:
2.2.1确定挖掘对象、目标及其数据采集
2.2.2数据的预处理
2.2.3决策树在学生成绩分析中的应用
决策树的生长过程本质是对训练样本反复不断递归过程,根据SPSSModeler提供的的C5.0算法、QUEST算法、CHAID算法和CART算法,对预处理后的数据流分别进行建模和比较,具体的算法思想和内容不再赘述,其建模的流程和C5.0算法结果如图3所示:由图3(b)中的模型结果可以看出评估模型中每个预测变量的相对重要性。通过这一点,我们看到Excel成绩在此个案中最显著,而其他变量的因子依次为:Access、填空、单选、ppt、word等成绩。这也说明了Excel,Access和填空对学生来说不容易得分,大部分同学掌握还有待加强。而学生对ppt、word、网络和windows题目掌握较好。
由图4所示的分析结果可以看出:经过剪枝的决策树模型的准确率为达到了88.1%,模型提取的分类的成绩结果为“好”的规则如图4(a)所示。由决策树提取的分类规则对大学生英语学习有着重要的指导作用,同学们可以根据自己实际学习情况,参考决策树挖掘结果,找出自己的学习薄弱环节,进行针对性的学习训练,对通过大学计算机考试的几种情况有所了解,为自己制定学习计划和学习目标提供参考。从上面的规则我们可以看出:在考试中,单选、excel和Access部分的得分对考试成绩为“好”的影响是最为重要的,其次是填空和word,其余部分对考试的影响较小。因此,同学们在准备考试的时候可以将excel和Access作为重点来进行强化训练,提前调整自己的学习计划、完善自己的学习方法、科学的提高学习成绩。
此外,由图4(b)和图5所示的模型对比结果可以看出:经过剪枝的决策树C5.0算法模型的测试和训练的准确率比其他几个分类算法要高。模型一致性误差对比可以看出:在检验的样本集合上,4个模型对255个样本有相同的预测值,占52.9%。225个样本预测结果不同,占47%。可见,4个模型预测结果相同的比例属于中等水平;进一步,在相同预测结果的255个样本中,有232个预测正确,占91.7%,21个预测错误占8.3%。因此,模型的总体预测精度一般,根据分析可进行样本的平衡处理或在模型参数上更细致的调整。
3小结
本文研究数据挖掘技术中的决策树模型,采用SPSSModeler工具软件对大学计算机基础的考试成绩进行分析,通过数据预处理,为决策树模型准备数据,实现了成绩分类挖掘的全过程,通过生成的决策树规则分析计算机大学基础考试中的题型对考试成绩的影响情况,从中找出规律指导考生调整学习计划、完善学习方法、科学有效提高学习成绩。从实验分析的结果和模型的对比可以看出,该决策树模型的分类效果是良好的。
参考文献
[1]伍顺比.新世纪我国高等教育信息化的回顾与展望[J].教育探索,2011(6):135-137.
[2]孙名松,周梦熊,李胜利,基于UML的高校教育信息化评价系统的模型研究[J].大连理工大学学报,2005(45):287-290.