开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘课程,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
国外很多大学都开设了数据挖掘类课程,波士顿大学的“数据管理与商务智能”课程主要包括基础、核心技术、应用三部分。授课方式包括理论内容讲授、案例教学,以及学生以团队合作方式完成项目并进行课堂演讲。从麻省理工学院开放性课程资料(斯隆管理学院)中可以看出,在每章讲解一种算法之后都尽可能地安排了商务实例的分析,并在课程后期安排了客座讲座的形式。国内对于数据挖掘的教学类研究成果也很多,主要集中在三类问题的研究上,较为普遍的是根据专业建立大纲的研究,例如针对电子商务专业进行大纲设计;另外也有专注研究某一种或多种适合数据挖掘或商务智能的教学方法,如专题研讨法;还有的讨论算法理解与程序设计、软件应用的关系。
2、基于模块化方法的课程内容分析
3、基于模块化方法进行重要知识点的模块化分析
重要知识点内涵较为丰富,一般体现在经典数据挖掘算法上,通常一大类算法下还分有多个算法,不同算法的在难度上有渐进层次,同一种算法也有很大改进研究空间,讲授弹性比较大。因此,适合使用模块化方法进行处理,并且需要在课程设计中明确一定课时量所要达到的内容和难度。基础部分为必选内容,介绍基本概念和基本原理;决策树作为数据挖掘分类算法的最基础算法也是必选内容,决策树算法有多种分类,需要进行按照难易程度进行选择;最后要根据难度选择其他分类算法进行介绍。
4、结论
本文使用了模块化教学的思想研究了数据挖掘类课程设计的过程,主要包括课程内容的模块化处理与重要知识点的模块化处理。对课程内容进行模块化处理,可以方便教师实行不同的授课方式和考查方式,可以使学生从宏观角度明确课程重点和难点提高学生的听课效果。对知识点的内容进行模块化处理,可以帮助学生了解哪些是基础知识,哪些是需要扩展和探索的内容,为将来深入学习打下基础,同时也有助于教师及时了解学生对知识点的掌握程度。对于难度跨度较大的章节,可以选用专题探讨式教学方法提升学生上课的兴趣、有效提高学生对知识点的理解程度,对于实践教学环节,选用商务智能和数据挖掘软件帮助学生理解方法的应用。随着数据挖掘、云计算、大数据的发展,数据挖掘类课程的课时量、实践教学环节都会在教学计划调整过程中增加,对教学内容的模块化分类以及相应的授课方式的研究成果仍可继续发挥作用,并进行更深入的研究和实践。
作者:胡敏单位:北京信息科技大学信息管理学院
课程是实现教学内容传递的集中体现,是学校教育的目的性、计划性和组织性的集中体现。课程设置规定着课程类型、课程性质、课程排序和学时分配,还规定各类各科课程的学习目标、学习内容和学习要求等,其合理与否将直接影响到所培养人才的质量,关系到学生知识面的宽度、深度、动手实践和研究能力的高低,同时也已经成为了影响大学生就业的主要因素之一。因此,课程结构和课程内容的合理设置尤为重要。
二、数据挖掘技术
数据挖掘(DataMining,DM)又称数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过使用成熟的数据挖掘模型,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,得到数据中反映出来的数据内在的关系,从而进一步应用到具体的数据分析研究中去。数据挖掘得到的信息具有先前未知、有效和实用三个特征。
加强实验教学,增强学生动手能力
灵活的课后作业形式,提高学生的综合能力
作者:徐春明单位:盐城师范学院数学科学学院
DataMiningandAnalysisforthePersonalizedTeachingofMultimediaTechnologyCourse
YANGNan-yue
(IndustrialTrainingCenter,GuangdongPolytechnicNormalUniversity,Guangzhou510665,China)
Abstract:Sincepersonalizedteachinghasbeenimplementedinmultimediatechnologyteachinginthepastfiveyears,alotofteachingdataaccumulatedfrommultimediatechnologyonlinelearningplatform.Thearticleintroduceddataminingandanalysistechnologytoprocessthesedatainordertoobtainsupportanddecision-makingreferencefortheimprovementofthequalityofpersonalizedteaching.First,thesnowflakemodelofcoursesselectionfordatawarehousewasbuilt.ThentheApriorialgorithmwasusedtodigouttheinnerlinkbetweenthestudents’mediatechnologyachievementsandthefinalgrade.Andthenclusteranalysiswithk-meansalgorithmonallstudents’scoreswasconducted.Finally,thecalculatedresultswerevisualizedandanalyzed.Practiceprovedthatdataminingandanalysistechnologyisausefultoolforquantitativeanalysisintheteaching.
Keywords:datamining;snowflakemodel;associationrule;clusteranalysis;personalizedteaching
1数据仓库多维数据模型的建立
2采用Apriori算法的关联规则挖掘
Apriori算法通过逐层迭代来找出所有的频繁项目集L。用户需要输入事物数据库D和最小支持度阀值min_sup。实现过程为:
1)单次扫描数据库D计算出各个1项集的支持度,得到频繁1项集构成的集合L1。
2)连接:为了产生频繁K项集构成的集合,通过连接运算预先生成一个潜在频繁k项集的集合Ck。
3)剪枝:利用Apriori算法“任何非频繁的(k-1)项集必定不是频繁k项集的子集”的性质,从Ck中删除掉含有非频繁子集的那些潜在k项集。
4)再次扫描数据库D,计算Ck中各个项集的支持度。
5)剔除Ck中不满足最小支持度的项集,得到由频繁k项集构成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠;k++)dobegin(3)Ck=apriori_gen(Lk-1);//新的潜在频繁项集(4)foralltransactionst∈Ddobegin(5)Ct=subset(Ck,t);//t中包含的潜在频繁项集(6)forallcandidatesc∈Ctdobegin(7)c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出频繁项集L后,1)对于L中的每一个频繁项目集l,产生l的所有非空子集。2)对于l的每一个非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],则输出规则:SL-S[4]。
本课题对近五年选修多媒体技术的学生所有成绩数据进行清洗,填补空缺值,去噪,类型转换,集成等处理后放入数据仓库中,系统采用Apriori算法找出所有的频繁项集。为了便于进行关联规则的挖掘,对成绩数据进行离散化处理,转变成标称型变量[5]。成绩score(简化为“s”)在85-100区间的表示“优秀”,标记为“1”,在70-84区间的表示“中等”,标记为“2”,在60-70区间的表示“合格”,标记为“3”。多媒体技术每门媒体技术课程:图像处理、音频处理、视频处理、动画制作和最后的期末考试分别用A、B、C、D、E表示。学生的学号用StudentID表示,那么每个学生选修的N门课和最后期末考试的成绩可以表示为{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范围是{1,2,3}。例如{2011204543021,A3,B1,D3,E3}表示学号为2011204543021的学生,选修了图像处理,音频处理和动画制作这三门媒体技术,其中图像处理成绩为合格,音频处理成绩为优秀,动画制作成绩为合格,期末考试成绩为合格,该名学生没有选修视频处理,故没有这门科目的成绩。
设定最小支持度阀值min_sup为3%,最小置信度阀值min_conf为70%,系统采用Apriori算法进行数据挖掘,得到满足最小置信度阀值的规则和相应的置信度如表1。
挖掘结果分析:表1的关联规则体现学生选修的媒体技术课程种类、科目数量与期末考试成绩之间的相互关系。可以看到期末考试成绩属于中等(E2)或合格(E3)级别的,学生全选四门媒体技术比只选学三门的置信度高,即选课数量多的较容易及格或获得中等的期末成绩。另外,在选课种类方面,选B这门课,即选音频处理的学生比较多,是一个概率比较高的事件,可能这门课内容比较少和易掌握,因此选学选考的学生就多。但这门课的成绩对期末考试成绩影响不明显,说明教师这门课出的考题区分度低,没能反映出学生的水平层次。在最小支持度阀值min_sup为3%的情况下,选A(图像处理),C(视频处理)和D(动画制作)这几门课并获得优秀成绩(A1,C1,D1)的很少,即小概率事件被过滤掉了,没能挖掘出它们与期末成绩之间的关联性。但这几门课程成绩中等或合格与期末成绩存在内在关系,也就是说如果这几门课成绩都是中等的,期末考试成绩大部分都为中等,一小部分可以达到优秀。如果这几门课成绩都是合格,期末考试成绩就是合格。说明这几门课程的考题比较真实反映出学生掌握技能的实际水平,致使期末综合性的考试成绩与学生平时掌握程度相符合。这也意味着个性化教学具有一定的成效。
本课题对近五年的学生多媒体技术每科成绩与期末成绩进行聚类分析,把学生划分到若干不同的类中,分析各个类的特征,从而考察实施个性化教学后的效果。设定85分,75分和65分为三个初始的聚类中心,对学生的所有成绩进行聚类分析,找出同一类别学生的学号,以此为索引,查找到该类中各个学生的专业与年级,绘制出饼状图,再绘制出该类学生所选各门媒体技术的平均分柱状图,通过这几个图表考察不同专业不同年级学生在本门课程优秀中等合格若干成绩区间的分布情况,从而检查实施个性化教学的效果,为今后的改进方案提供参考。例如调整后得到的最终聚类中心为82分的学生,各门媒体技术的平均分和专业、年级分布如图3~图5所示。
从上面几个图可以看出,成绩为优秀的学生主要来自美术、计算机和电信这几个专业,大三、大四的学生比较多。分析其中的原因,主要是美术学院很多专业课需要用二维、三维图像软件或视频软件进行制作和处理,他们对这门课程已经有一定的基础,所以学起来比较轻松,也容易取得高分。而计算机和电信专业中高年级的学生学习和使用软件的能力比较强,因此掌握多媒体技术各个媒体软件较其他专业学生快,并且能够灵活运用,因而较易取得比较优异的成绩。
最终聚类中心为64分的学生,各门媒体技术的平均分和专业、年级分布如图6~图8所示。
关键词:数据挖掘技术高等学校教学应用研究
21世纪是经济和社会不断发展,科技水平不断提高的信息化时代,从而促进了整个社会的信息总量的增加,提高了人们利用信息技术寻找数据的能力。可是由于积累的数据不断增多,可是在对数据进行挖掘的过程中对所隐藏的知识知知晓的方法比较少,从而就出现了数据大爆炸,而知识上出现了严重的匮乏这样的现象。
随着人们对数据库技术上的不断掌握和成熟,以及在数据应用上也得到相应的普及,人们积累的数据资料很多,人们累积了比较多的数据资料,可是却没有充分的发挥与利用数据库里蕴含的丰富的知识和信息。由于在现代社会里数据库的量在以几何状态不断的增长着,而从数据的中,人们要在挑选技术的需求下对信息去粗存精、去伪存真愈发强烈,日益期望计算机系统能够提供更高层次的数据分析,从而有效的帮助领导者注意到数据之间容易被户数可是又很重要的因素,在决策上得到了更好的支持效果。同时为了跟这项要求呈现迎合现象,应挖掘数据库的技术和发现数据库中的知识KDD,才能顺应时代的发展,得到相应的推广和研发。
1数据挖掘技术的具体含义和特点
数据挖掘技术的含义主要指的是从一些不完全、有噪声、模糊的、大量的、随机的数据当中,对其隐藏在数据里面的信息进行有效的提取,可是又不被人们事先知道,然而又十分有用的信息与知识的过程。通过比较分析数据挖掘的目标,人们可以采用一些手段和措施进行挖掘,其中包含了人工智能、集合论或者统计学等,再运用相对应的数据挖掘算法进行分析数据的基础,在通过可视化的工具来描述夺取的模式和表达其规则。
对于数据挖掘技术而言,其通常具有以下三个特点。首先数据挖掘技术能够有效的发现能够表现系统局部特征和规律的模型;其次数据挖掘技术可以自动的对趋势进行有效的预测,从而发掘新的知识;最后数据挖掘技术能够便捷的获取规则,并进行实时的更新。数据挖掘方法是一种开放性的思维方法,它能够及时的使用和借鉴在模型法中的多项成果,例如神经网络、粗糙集、朴素贝叶斯算法等方法,这些方法无一例外都被数据挖掘方法所采用。
2数据挖掘技术的目的和挖掘的过程
首先,对于数据挖掘技术而言,其希望能够发现以下几方面的知识的知识:一方面是能够有效的表现同类事物的共同性质的泛化知识;另一方面是期望能够发现可以表现一种事物与其他事物之间的依赖或者关联的关联型知识;第三是期望能够发现可以详细的展现同类事物的共同性质的特征型知识,以及在不同事物之间存在的区别的差异型知识;最后采用数据挖掘技术还期望能够获得通过对历史和当前数据的分析,能够预测未来的预测型知识。
3数据挖掘技术在高等学校教学中的具体应用
3.1了解高校学生的基本信息
3.2掌握学生的学习特征
3.3教师要科学合理的设置课程
4结语
总而言之,随着科学技术的不断发展和信息量的海量增加,依靠传统方法很难在规模庞大的数据中找到科学决策的依据。因此这就需要我们借助数据挖掘技术去寻找蕴藏在数据库中的规律,从而为科学合理的决策提供有力的支持。数据挖掘技术,作为一门辅助工具,永远无法动摇教师在提高学生成绩的地位,可是它能够为教师的决策提供科学的依据,从而为传统教学中很难获取或者不能获取的模型提供了可能。
参考文献
[1]惠向晖,王亚伟,苏克勤,等.浅谈数据挖掘技术及其在高等学校教学中的应用[J].北计算机科学,2010(11):41-45.
关键词:学校教学;数据挖掘技术;应用
1数据挖掘技术
数据挖掘技术的应用十分广泛,在电信业、农业、工业、金融业等各个领域都得到了广泛的应用。数据挖掘方法主要为关联规则、决策树、聚类分析以及遗传算法、神经网络等,关联规则和决策树是使用频率最多、范围最广的两种方法。关联规则是数据挖掘最先研究的问题之一,也是数据挖掘中最成熟、最主要的分析方法之一,能够揭示出数据之间的隐含关系。关联规则首先要对数据库中的一组对象进行关系分析,然后通过置信度和支持度来进行筛选,最后得出被认为具有价值的事实或是规律,例如购物篮的分析中,通过对销售数据的分析发现一些客户的购物习惯及规律。利用关联规则最经典的是由R.Agrawal,Hnielinski,Swam等人在1994年提出的Apriori算法,在生成特定关系候选项目集的基础之上,对数据库进行扫描,并确定候选项目是否满足要求。
决策树算法主要用来解决分类问题,通过对数据进行归纳和学习,将分类过程在构建的一棵树上进行建模,完成后,便能够应用在数据库中的元组得到分类结果,树中每一个内部节点都表示了一个属性值的检验,分支便表示检验结果,树的叶节点代表类别。
通过上文的分析可知,数据挖掘技术具有以下特点:第一,数据处理规模较大;第二,挖掘出的知识无法预知;第三,在发现潜在规则的基础上,要维护并管理规则;第四,规则的发现是在大样本统计规律的基础之上,且当置信度达到某一标准时,便认为规则成立。
2常用的数据挖掘技术
2.1关联规则
2.2决策树算法
决策树算法是较为常用、直观、快速的一种分类方法,决策树算法即创建一个树状结构,根据不同层次对结点进行分类,每个节点都对应一个样本集,根节点要对应整个样本集,内部节点应对应一个样本集,叶节点对应一个类标志,然后根据结点包含的样本属性进行测试,并依据测试结果,将样本集进行划分,划分出两个或两个以上的子集,每一个子集生成一个分支,并用测试属性值来对分值进行标识,叶节点包含一个类标志,表示与之相对应的样本集类别。常用的决策树计算方法有:1)ID3算法,此为最著名的一种决策树算法,采用的是贪心搜索选择分裂的特征和信息理论;2)C4.5算法,此为ID3算法的改进,也是基于信息增益比的特征选择策略以及最小描述长度的剪枝方法的首次提出,增加了缺失数据以及对连续性属性的处理策略,并对分类规则的推导方法进行提出,对连续性属性采用的是安全搜索二分法,对于离散型属性,采用的是多分法;3)EC4.5算法,此种算法是C4.5的改进算法,在效率上较C4.5有一定的提高。除此之外,决策树算法还包括很多其他算法,在处理不同的数据库数据时,要结合数据库特征来选择算法。
2.3聚类分析算法
一般情况下,人们对事物进行认知采用将认知对象进行分类的方法,分为同一类的事务一般都具有较多的相似特征,聚类的任务即在没有训练数据样本时,根据对象自身相似性将一组对象划分成为一系列具有意义的子集。经常使用的聚类划分方法为:K-means算法、PAM算法以及CLARA算法和CLARANS算法等,较为经典的聚类分析算法为K-means和扩展算法,即将对象D划分为一组聚类{C1,C2,……Ck},始终K是要得到的聚类个数,此种算法将一个对象最多分为一个聚类,每一个聚类都是全体对象的子集之一。聚类指本着找到一组聚类中心及隶属矩阵的目的,让目标函数值趋近于最小,因此为了能够解决函数值最小的问题,可以采用K-means中的爬山算法,即首先随机选择K个初始聚类中心,将每一个对象都分配给离它的据点,得到一组聚类,然后对当前每一个聚类中心进行计算并作为新聚点,将每个对象重新进行分配,分配要离对象最近的聚点中,如此循环计算,直到满足终止条件位置。
3数据挖掘技术在学习特征分析中的应用
4数据挖掘技术在教学决策中的应用
利用数据挖掘技术来辅助教学过程中的决策,主要表现在以下方面。
4.1合理设置课程
合理设计课程,即将课程之间的结构安排合理,包括开设的课程、课程的先后顺序、课程之间的衔接等,通过将课程进行合理设置,能够让学生通过学习课程,具备相应的知识和能力。由于课程的开设本身就具有一定程度的潜在关联和顺序,因此通过数据挖掘技术能够将潜在关联、顺序进行明确,从而找到设置课程的依据,调整课程之间的顺序,达到最佳教学效果。
4.2改进教学方式方法
在教学过程中,教师会通过运用各种方式方法来完成教学任务,并达到最佳教学效果,但是何种教学效果才算是最优效果,何种方式方法能够达到最优效果还尚不明确,因此要通过对积累的大量教学数据进行数据挖掘,来明确教学的方式方法及效果。利用数据挖掘技术的分类和聚类方法首先对学生的具体情况进行分析,然后利用回归线和关联规则的方法来判断不同专业、特征的学生应当采取怎样的方式方法进行教学,以及教学内容的深度和广度等,让教师能够通过数据挖掘技术,了解不同教学对象应当使用的教学方法、内容、手段等,用发展的眼光来看待教学方法,不断更新教学手段,激发起学生的学习兴趣,从而提高教学质量。
4.3合理化考试
考试作为教育教学活动中的重要环节,能够检验学生知识和能力的掌握理解程度,随着教育改革进程的不断加快,考试也应当随着教育的不断发展而变化,教师在教学过程中不能因为考试而教学,也不能因为教学而考试,考试仅仅是教学活动中的一个组成部分。考试的内容和方法要根据教学的目标、内容、方法来确定,因此想要让教学和考试能够和谐发展,相互促进,共同提高,就必须要利用数据挖掘技术来辅助教学决策,提高评价、考试的合理化。
5数据挖掘技术在教学评价中的应用
6结束语
综上所述,我们可以通过利用数据挖掘技术来明确各个要素之间的隐藏关联关系,通过将数据挖掘技术应用在学校教学中,能够挖掘学习者的学习特征、辅助教学决策、帮助教学评价。笔者在对数据挖掘技术进行分析和研究的基础之上,首先对两种常用的数据挖掘技术——关联规则和决策树进行叙述,然后针对数据挖掘技术在学校教学中的应用提出一些个人观点,相信在不久的将来,数据挖掘技术能够代替以往传统的数据分析技术,帮助学校教育适应现代化教育的潮流,紧跟现代化教育的脚步,提升学校教学水平。
参考文献:
[1]李瑞林.数据挖掘技术在教学过程中的应用[J].制造业自动化,2010,9(73).
[2]唐仕敏.数据挖掘技术在高校教学中的应用[J].产业与科技论坛,2011,1(38).
关键词:数据挖掘技术;交互课堂;特点
课堂教学是一个具有一定周期性的过程,作为授业者的教师,通过不断的教学实践,对教学设计不断地进行优化、更新、管理及评价的过程。本文探讨通过数据挖掘技术建立一个可以对课堂交互中的信息进行有效整理、合理分析的信息处理模型,从而有效促进教学设计的不断更新。
一、课堂互动中信息的特点
在课堂教学中的信息交互是通过师生人际交流、教学过程等实现的,这决定了这些信息具有以下基本特点:
1.信息采集工作量大
2.可量化性低
课堂内外互动中的信息绝大多数是由言语、肢体语言来交互的,其中一些类似如学生对教学内容与方式的反应、学习中的兴趣爱好、教师与学生互动中交流信息等不容易进行定性量化,导致处理起来比较困难。
3.信息的包容性大
在教学互动过程中的各类信息,如教师的教学方式、教学风格、教学内容的组织、师生的个人思维动态等都包含了各种各类的信息综合体,非常难以从这些信息的表面就判断信息的类属。同时这些信息有些还属于生物信息范畴,难以分析。
4.信息的不确定性
在课堂互动教学过程中对学生当前学习状态、知识的掌握程度的判断是基于教师的个人理解,具有不确定性,是具有一定的误差的。而在教学过程中对提问中学生的反应,判定学生的回答正确与否,都具有教师的主观性。
正是由于课堂互动中的信息具有以上特征,从而使得数据信息采集工作量大,定性量化比较困难。所以很久以来从事教育信息整合的研究者常喜欢于用质的定性研究来评价,随着当前数据处理科学的进步,如何更客观地对课堂中的交互信息进行定性、量化、处理变得尤为重要。通过对潜在信息数据中有价值的内容的提炼、整合、处理,可以及时从里面发现有用的数据信息,从大量互动数据中找到教育规律,用以教师对教学的改进。归根结底,我们对课堂互动中信息的数据挖掘,是为了处理过后的信息反馈与我们的教学,从而更加有效地改进我们教学系统的设计、评价等系统。
二、数据挖掘及其技术
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其目标是支持利用数据进行合理的决策。
根据信息存储格式的不同,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。其任务主要是关联分析、聚类分析、分类、预测、时序模式分析等。
数据挖掘的流程包括以下过程,这些过程不是一次完成的,其中某些步骤或者全过程可能要反复进行:(1)问题的定义;(2)数据准备;(3)数据挖掘;(4)结果分析;(5)知识表示。
三、交互课堂中数据挖掘技术的应用
1.课堂互动中数据挖掘的主要任务
利用数据挖掘技术可从以下三个方面对零碎的、不容易识别的课堂互动信息进行挖掘。
日常的教学实践证明,课堂交互中的学生投入与否,对交互的教学效果有着决定性的影响。假设学生的课堂交互状态不够,那么要找原因的话,就要从教师的教学设计或课堂气氛营造上来找。我们利用学生信息的数据挖掘技术,分析学生在交互的过程中的状态,形成直观的信息材料,为教师课堂教学的组织的改进提供支撑,同时也可以为教师教学效果评价提供依据。
(3)教师、学生课堂交互信息的挖掘。“师生交互”是教学设计实施中的关键环节,交互意味着师生有语言上的交流及行为上的互动。在课堂教学交互过程中一般互动是在授课者与听课者、课程设计与教学实际之间进行的。师生间的交互信息主要表现在师生的互动交流、教师为学生直接提供的课程内容、课程内容的问答和学生错误的反馈等。通过使用数据挖掘技术,深入挖掘教学中的交互信息,让老师改进自己的教学设计及课堂行为,提高实际教学效果,实现师生之间进行有效的互动。
2.挖掘课堂中互动信息的流程
建立课堂互动信息处理的数据挖掘系统现场记录或通过WEB在线应用收集交互信息信息的标准化和信息化处理课堂互动信息分类编码数据信息进行转换、处理数据挖掘挖掘结果分析反馈教学过程。
3.课堂互动信息数据挖掘方法
4.基于课堂交互的数据挖掘系统设计
根据数据挖掘模型及课堂互动信息的特点,基于课堂交互的数据挖掘系统可由如下四个部分组成。
(1)数据采集模块:模块采集的信息主要包括课堂教学中教师、学生的各种行为、语言,师生间互动等信息。
(2)数据处理模块:解决语义模糊性,数据库按照元数据标准对数据进行清理、集成和变换,检查数据的完整性和一致性。
(3)数据分析模块:通过分析经过转换的数据,根据数据挖掘的基本策略,对数据进行分析处理,得出结果并输出。如,利用统计类数据挖掘工具对反映一般变化方向的教学趋势变化进行分析,采用加权平均或最小乘2法对时序图上的数据进行处理,以确定数据变化趋势,为后续的教学决策与评价提供依据。
(4)数据评价模块:对提取的信息进行分析,将结果与课堂教学的教育理论,学习理论相结合,根据起始目标的量规对课堂教学效果进行评价、反思教学。将有价值的信息区分出来,通过决策支持工具提交决策者。根据每个处理模块的结果可以决定是否重新进行某些处理过程,在处理的任意阶段可以返回以前阶段进行再处理。在数据挖掘技术实际运用过程中,教师可以根据自身对信息需求的不同,通过对数据挖掘的一些语义规则的选择和自定义得到不同的个性化结果。
关键词:高校教育信息化;数据挖掘
中图分类号:TP311.13
信息化社会的到来,使各种信息纷涌而至,给高校也带来了大量的有关教育、学生等各类信息,面对如此庞大的信息量,用传统的信息、数据提取的方式已经很难满足高校的要求,而且大量信息所带来的信息的消化、安全等问题,使得高校必须要借助数据挖掘的工具去提取数据中隐藏的规律和模式。
1数据挖掘的概念及过程
1.1数据挖掘的概念
数据挖掘是一种提取知识和信息的过程,具体来说就是从大量的、不完整的、有噪音的、模糊、随机的在实际中应用的数据里,提取出其隐藏在内部、不被人们事先知道的信息和数据的过程。
1.2数据挖掘的过程
2数据挖掘在高校教育信息化中应用的必要性
目前,计算机已不单单是计算的工具,它还帮助我们分析和处理数据,从而做出科学的决策。随着信息化社会的快速发展,人们所接触、获得到的数据种类不断增多,数量也急剧上升,此时用传统的数据分析的方法已不能更快速、更有效的帮助人们解决问题了,这就要求我们运用数据挖掘这一手段来进行工作。在教育信息化的背景下,高校管理也朝着信息化、网络化的方向发展。在教育教学过程中,必定会积累大量的教学数据,但我们只能对其进行简单的统计与分析,无法了解数据深层的内容。在教学评估中,教师也只能把学生的平时和期末成绩作为评价一个学生的标准,无法客观公正的做出评判。教学工作者仅凭简单的经验分析就做出结论,往往存在很多的漏洞,这就需要数据挖掘为我们提供一种更深层次了解数据隐藏的信息和内容的方法,使管理者做出科学的决策,及时发现学生在学习过程中出现的问题,制定行之有效的教学方法,做出正确客观的分析评价,提升教育教学的质量和水平。可见数据挖掘具有重要的意义和必要性。
3数据挖掘在高校教育信息化中的应用
高校教育信息化是整合先进的技术,运用到高校教育管理体系之中,使教育教学、管理工作和校园的文化生活更网络化、信息化,提高教育质量和效率,形成一种全新的教育和管理模式。高校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘可以应用到高校教育信息化的各个方面,如教学评价、课程设置、网络教育、分析学习者特征、干预师生行为、辅助考试等方面。
3.1教学评价
教学评价就是根据教学目标、原则的要求,利用收集到的信息对教学活动以及教学成果进行评价的过程,主要包括对学生学和对教师教的评价。随着信息化的快速发展,高校教育信息化积累了大量的学生成绩、行为纪律、处罚奖励等数据,利用数据挖掘的方式来进行分析处理,可以客观准确的得到学生的评价结果,及时纠正学生的不良的学习行为,同时还能尽量避免教师因主观作用对学生做出的不公平的、不客观的评价。将数据挖掘的关联规则运用到教学评价的数据中,使教师能够认识到自身的教学情况以及学生的学习和个性特点,并给予合理的意见,对今后的教学工作有一定的指导意义。
3.2合理设置课程
高校学生所进行的课程学习是循序渐进的,对于课程的学习要一步一步按照先易后难来进行,而且由于教师、学生以及班级的文化氛围的不同,同一年级的不同班级在学习相同课程时也存在很大的差异。这种情况下,教务管理人员和任课教师就很难根据学生的成绩做出客观、合理的判断,从而做出教学进程的决策。因此,要借助于数据挖掘技术,从大量已有数据中挖掘出有用的信息和内容,分析各数据之间存在的关系,找到影响学生成绩的因素,然后在此基础上,对课程设置做出合理的安排。
3.3个性化、智能化网络教育
个性化、智能化网络远程教育充分的利用了数据挖掘的技术,远程教育的顺利开展得到保障。首先根据学生所提供的信息,对不同层次的学生提供不同的学习内容和模式,进行因材施教。其次,对已保存的学生的信息进行数据挖掘,利用已有的资源,对课程进行重新组合,使之更符合教学规律。最后通过对学习者学习行为进行数据挖掘,了解学习者的浏览模式,重新进行页面之间的链接,以符合学习者的访问习惯。
3.4学习者特征分析
对学习者特征的分析在教育活动中具有重要的地位。它不仅是教学设计的前提,是教学成功的关键。学习者特征包括学习者的知识结构和学习风格。学习者的知识结构是学习者已经学习的或即将学习的内容。学习风格包括学习者的生理、心理和社会特征。利用数据挖掘来分析学习者的特征,不仅有助于学习者改进自己的学习行为,而且能提高学习者的学习能力,完善其人格,有利于学习者素质的全面、和谐发展。
3.5干预学生行为
在干预学生行为方面也可以使用数据挖掘技术。高校的教育教学人员可以根据高校数据库中保存的学生的家庭条件、学习状况、奖励处罚等情况,通过数据挖掘中分类等方法找到学生行为活动的关系,及时对做出学生下一步行为的预测,防止学生出现不良行为。例如在学校课程增多,难度加大,学生学习压力重,而且家庭出现矛盾的情况下,学生很容易出现抑郁或偏激行为,通过数据挖掘技术,学校教务管理人员及教师可以及时做出预测,并做好预防工作,就可以有效避免这种情况的发生。
3.6辅助考试
4结束语
高校教育信息化带来是信息量的增长和提取信息工作的难度。数据挖掘技术有效的避免了传统信息提取的问题,更深层面的发掘隐藏的规律和模式,为教育教学工作的设计、决策、实施等方面提供了新的途径,带来了更多的便利。随着科学技术的日新月异、信息技术的不断发展,数据挖掘技术还将更广泛的被应用到各个领域,并发挥着日益重要的作用。
[1]肖自力.信息素养教育和高校图书馆的使命[J].大学图书馆学报,2011(5).
[2]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2010(4).
关键词:实践教学研究;建构主义理论;信息管理专业;数据挖掘
一、引言
随着数据挖掘、商务智能技术的快速发展与广泛应用,作为综合型应用型人才的信息管理专业的本科生必须在掌握一定理论知识的前提下熟悉数据挖掘的实践操作,能够根据实际数据构建数据仓库的多维模型、进行联机分析处理,并能结合案例主动思考分析,熟练选择合适的数据挖掘方法解决管理领域的问题,得出数据挖掘的结论。这就对数据挖掘课程的实践教学提出了很高的要求。数据挖掘是一门与多学科交叉的综合课程,其课程内容丰富、课程案例和使用工具具有多样化特征,这使得实践教学设计的方案的可选择性增强了,同时也对选择适合的内容、案例与工具并设计成一个完善的系统化的实验增加了难度。
二、基于建构主义理论进行实践教学设计
1.建构主义理论与实践教学目标。建构主义理论强调,学生通过以往的学习和经历已经形成了对客观事物的基本理解和认识,已具备了一定的知识结构,学习的过程是学生个人的知识储备与知识结构和外界影响相结合,并在结构过程中继续主动地建构自己新知识结构的过程[1]。
基于建构主义理论,给出数据挖掘课程实践教学的主要目标即为在原有理论知识理解的基础上,在新的教学实验情景下不断学习和理解,最终熟悉了实验情景、掌握了课程设计的应用,还能改达到对原有知识的深刻理解,进而能在新的实验情景和新的应用案例下有启发式的想法和思路,进行独立的思考和研究。具体包括:巩固已学习知识、加深对理论知识的理解,实验内容设计与教材理论体系一脉相承,有助于学生系统化理解本课程;深刻理解数据挖掘多步骤之间以分析为驱动、以数据相衔接的前后关系;训练学生对管理问题的抽象能力,培养学生学习兴趣。通过管理实例深刻体会到数据挖掘方法的重要性和实用性,培养学生对课程的兴趣,引导学生学会科学思考问题、提炼问题;熟悉主流软件,为学生踏入数据仓库与数据挖掘领域做好铺垫。实验使用业内流行的数据整合软件和商务智能软件进行实验设计,使得学生的实践适应技术的发展。
2.基于建构主义理论选择实验工具与实验案例。建构主义认为,学是与一定的情境相联系的。学习情境是学生可以在其中进行自由探索和自主学习的场所,一个良好的实践教学情景设计对学生学习要有明显的激发和引导作用。
在案例选择时,教师可以为学生提供一种典型的案例背景,在这种背景下的研究方法可以给予较多的辅导,使学生首先熟悉实验工具的环境,以及实验工具、实验案例与实验内容和原理的融合。再准备一些其他的经典案例供学生自由选择,鼓励学生用已有的知识来寻找最佳解决方案。这样,就促进了学生对知识、能力的迁移,并使得这一过程成为学生能力和自我有意识的调节过程。在确定软件选择方案方面,根据对国内外调研情况的分析[2],数据挖掘实践模块的工具的选择,可以分为以下三种情况:一是使用基本工具编程实现算法;二是直接使用具备数据整合、多维数据建模等方法的商务智能工具;三是使用数据挖掘软件进行数据建模或编程开发。根据信管专业培养方案的培养目标,后两种模式较为适合。可以针对学生基础知识的掌握情况,选择合适的工具为学生设计综合性实验,并在实验后期留一部分自由度,让学生自己设计数据仓库、进行数据挖掘,并对挖掘结果进行多种形式的展示。
3.基于建构主义理论设计实验原理与内容。建构主义理论认为,意义建构是整个学习过程的最终目标,即认识事物的性质、规律以及事物之间的内在联系,通过“同化”和“顺应”来完善和丰富个体的认知结构[1]。“同化”是利用原有认知结构中的有关经验去学习当前的新知识,并对新知识进行过滤或改变,原有框架的一部分。如果原有经验不能“同化”新知识,则要引起“顺应”过程,即对原有认知结构进行改造与重组。[3]
基于建构主义理论进行实践教学活动设计,需要围绕意义建构目标而展开,需要在安排实践教学课程前,明确理论课程的主要框架,并遵循已有的理论框架和逻辑结构安排实践环节,这样学生就能够更有效地从学习过程中理解当前实践内容所反映的事物性质、规律及其互相联系。
实验原理实际就是实验所选择的理论和方法基础,在实验设计时最好能依据课堂内容进行选择,并注意最好选择按照课堂内容的顺序前后衔接,这样更加符合建构主义的教育方法。实验内容就是以与学生专业相符合的案例和案例的数据,应用实验原理进行实验的设计。在本课程中主要的实验原理是:应用数据预处理抽取、转换和装载方法,对原始数据进行整合和装载;应用数据仓库的OLAP技术,建立星型模式的多维数据模型,并进行OLAP操作,应用多维数据展示技术进行数据展示;应用数据挖掘分类与预测方法,对多维数据建模、预测,并使用报表工具展示挖掘的结果。主要实验内容包括:数据集成与转换,使用Pervasive软件实现数据存储格式转换、集成;进行Mstr商务智能软件的基本配置,并将实验1的数据装载到软件的数据仓库表中,为实验3做准备;数据仓库与多维数据的OLAP操作,使用商务智能软件针对原始数据建立星型模式多维数据模型,实现多维数据模型的OLAP操作,掌握商务智能软件的数据展示功能;数据挖掘方法应用,创建季度指数度量,进行数据挖掘前的数据转换,并创建训练度量实现对销售量的预测。
三、实验效果与结论
使用建构主义理论设计实践环节,事前给学生做好知识架构的铺垫,针对入门级实践,进行原理的讲解与回忆、进行实验过程的引导思考与详细讲授,同时提供更多情景资源给学生训练;对深入研究型的部分,给学生较大自由度,由学生自己完成。该门课程多数学生能够独立完成实验过程,并且能够在实验过程中较好地理解实验原理,分析管理问题。本实验综合效果较好,随着数据挖掘在信息管理专业中重要性的增强,在教学实践中增加课时的可能性很大,继续使用建构主义理论进行实践环节设计对学生也更有好处。
[1]张向葵.教育心理学[M].北京:中央广播电视大学出版社,2003.
[2]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.
[3]赵学凯,赵芳.教学建设与改革[J].北京教育,2007,(01).
[4]齐宏,王爱萍.实践教学环节的认知理论基础与教学设计[J].开放学习,2007,(7).
关键词:数据挖掘;关联规则;成绩管理
努力提高学生的成绩和学生素质是每一所高校的目标,随着高校的办学规模的扩大、办学层次多样化,随着社会的发展,影响学生学习成绩的因素也越来越多,学生成绩分析就更加重要。目前教务管理系统中收集了大量的学生成绩数据,管理者大都采用传统的统计报表形式,对这些数据的处理还停留在数据录入、简单的数据备份和查询阶段,有很大的局限性。
数据挖掘技术在许多领域,如商业、金融业以及企业的生产、市场营销等一些盈利行业都得到了广泛的应用,但在非盈利行业教育领域的应用相对还较少,将数据挖掘技术引入到教务管理信息系统中,对教务管理系统中的学生成绩数据进行分析,从大量数据存在的关系、规则中研究学生成绩,预测成绩发展趋势,从而能够更好地指导教师排课和学生选课,对学生管理工作有的放矢,提高授课和学习效果能起到非常重要的作用。本文主要使用数据挖掘技术中的关联规则进行高校学生成绩分析,以找出课程之间的关联关系,指导学生选课和合理的设置课程。
1数据挖掘关联算法
1.1数据挖掘
数据挖掘是一个应用数据分析工具从大量数据中发现以前未知的和隐蔽的信息,以及数据之间关系的研究领域。这些工具包括统计模型,数学算法和机器学习方法。综合了多学科内容的数据挖掘,把原来对知识的简单应用,比如学生成绩的操作及简单查询等方面扩展到了对知识信息的深度提取运用,比如从现有的学生信息数据库中挖掘对学生成绩有影响的属性信息,帮助学校合理调整教学计划,提高教学质量。出于对此类应用的需求,使数据挖掘这门前沿学科吸引了各个领域的研究者。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有自动预测趋势和行为、关联分析、聚类、概念描述(决策树方法、遗传算法)及偏差检测。本文主要应用了关联规则。
1.2关联规则
关联规则的挖掘是为了在数据库中发现关联关系,它是数据挖掘最先研究的问题之一,也是数据挖掘的一个主要研究方向,起初是研究超市的顾客交易数据库中的购买商品之间的关联规则的挖掘问题,即货物篮数据的关联规则。关联规则挖掘的目的是找出数据库中不同数据项集之间隐藏的关联关系。
Support(A=>B)=P(A∪B)confidence(A=>B)=P(B/A)
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则,我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。
1.3Aprior算法
Aprior算法是经典的关联规则挖掘算法,使用一种逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,找出频繁1项目集的集合,该集合记作L1,然后由L1得到L2,由L2得到L3,如此下去,直到不能找到频繁k一项目集。每找一层Lk均需要一次数据库扫描。
Apriori算法的在执行过程中存在两个缺点,一个是需要多次扫描事务数据库D,一个是可能产生庞大的候选集。在本文应用中,基于划分的优化方法。使用划分技术,可以只需要对数据库进行两遍扫描,就可以发现全部频繁集,从而大大降低对数据库的扫描遍数。将数据库分成许多区段,在找出频繁项集时,需要经过两步:计算各区段中项集的支持度,以找出各区段中的所有频繁项集:将各区段中所有的频繁项集合结合起来后,再扫描数据库找出真正的频繁项集合。
2成绩数据的关联挖掘
图1教务管理系统不同角度分析
2.1数据采集、清理与转化
大学课程之间有一定的关联和前后顺序关系,因此分析学生成绩与课程之间的关系为本文重点研究的内容。本文分析数据取自本校计算机学院软件工程三本学生121名学生成绩,课程信息如表1,专业必修课选择高级语言程序设计,公共课选取大学计算机基础、高数以及线性代数,同时也取其高考成绩作为先行成绩,应用关联规则算法分析先修课成绩优良对后修课成绩的影响程度。
学生的成绩信息从教务管理系统采集,初步收集时为EXCEL表,如图2,需要进行数据清理如去除空缺记录,以及进行数据转换,对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘。
Apriori算法只能处理布尔变量,需把数值型数据转换为由项集组成的事务数据表。因为挖掘的是各课程之间的优秀关系,同样使用创建命名计算的方法,成绩在60分以上的置为“及格”,表示事务中存在该项,将成绩字段值在60分以下的置为“不及格”。建命名计算后的表的数据如图3.
图2学生成绩信息初始表图3创建命名计算后数据视图
2.2数据分析
根据数据特点和应用需要,设定最小支持度20%,最小置信度60%。算法参数:Min_Support=0.2,Min_Probability=0.6。
图4专业课成绩的关联挖掘概率及重要性显示
图4显示了满足要求的关联规则,显示的规则已经按照概率排序,规则从上到下顺序编号为1-7。这些规则的概率和重要性分数。重要性(Importance)也称为兴趣度分数或者增益,设计重要性分数的额目的是测试规则的有效性。重要性分数越高,则规则的质量越好。重要性为0表示,A和B之间没有关联。正的重要性分数表示,当A为真时,B的概率会上升。负的重要性分数表示,当A为真时,B的概率为下降。说明线性代数取得及格(60分以上)的成绩和高级语言程序设计成绩在及格以上有很高程度的联系,特别是规则4高数成绩在及格的话,有94.4%的概率高级语言程序设计成绩为及格。
3总结
对于高校来说,学生信息的数据量可能达到几万甚至几十万,我们需要考虑如何利用智能算法来挖掘潜在的知识。通过本文的研究,初步实现了数据挖掘技术在高校学生成绩分析中的应用。课程之间有一定的关联和前后顺序关系的,分析学生成绩与课程之间的关系,得出了一些有价值的规则,以此可对教学计划进行合理的安排,学生也可根据自身情况合理选课。
[1]Tan,Steinbach,Kumar.IntroductiontoDataMining,2004.
[2]Hartigan,J.A.(1975).ClusteringAlgorithms.Wiley.MR0405726.ISBN0-471-35645-X.
[3]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2007,3.
作者简介:李莹莹,女,河南理工大学计算机学院,助教,硕士,研究方向:计算机网络,数据挖掘;张一民,男,河南理工大学在职研究生,研究方向:软件,数据挖掘。
关键词:数据挖掘高校教务管理实践应用
随着现代信息技术在各领域各行业的渗透与应用,给现代人们的生活与工作方式都带来了极大的改变。高校也不例外,在近年来高等教育信息化建设的背景下,诸多高校积极推进数字化校园的建设。教务管理是高校常规管理工作中的核心组成部分,也是各类数据和信息庞大的聚集地。因此如何运用现代信息技术来提高高校教务管理工作效率,更好地为学校发展服务,是一项赋有现实意义的课题。基于此,笔者结合工作实践,就数据挖掘技术在高校教务管理中的应用,作以下探讨与分析:
1数据挖掘概述
以计算机为基础的现代信息技术的发展,推动了各种新技术、新手段的应用。数据挖掘(DataMining)是一门融合了机器学习、统计分析和数据库技术的作为一门交叉学科。其应用价值在于把对数据的应用从低层次的简单查询,提升到有价值信息的挖掘,从而为决策提供支持。作为一种全新的信息处理技术,数据挖掘已被广泛应用于各行业、各领域,并展现出其强大的应用优势。在已有的研究和实践证明,在高校教务管理系统中应用数据挖掘技术有助于提高工作效率,能为教务管理决策提供有益帮助,从而推动高校教育教学工作的快速发展。
2系统分析及设计
3数据挖掘技术在教务系统中的应用
基于上述目的,那么在具体的高校教务管理中,采取怎样的数据挖掘技术手段就是应当解决的问题。笔者结合实践经验,就应用分类、回归分析、聚类、关联规则、特征、变化和偏差分析等数据挖掘技术手段在教务管理信息系统中的应用,作以下介绍:
3.1分类分析法的实践应用
当前各高校推动教育教学改革的过程中,人才培养方案是其重要构成内容。高校如何根据学生的实际情况,结合人才市场的需求,从而制定出科学合理的培养方案,是诸多高校亟需解决的问题。而在这一决策过程中,就可以利用数据挖掘的分类分析法了。具体来说,可以对学生的性格特征、学习兴趣与方法、课程设置、教学资源配置等信息数据建立起一个量的模型,进而对其进行分析、归纳和总结,找出它们共同的特点,按照分类的模式将其进行划分、归类,将学生个性化培养方案概括到某个给定的范围,既可以为学生自主性个性化学习提供更为科学有效的指导,又可以对学校的学科课程设置提供建设性意见,从而更好地实现培养多样化、个性化、创新性人才的培养目标。
3.2关联分析的实践应用
关联分析是用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。在高校教务管理系统中,运用关联分析可以获得良好的效果。以教学计划编制为例,可以通过对学生选课关联关系进行识别,以寻求最佳排课方式;同时还可以对排课的数据进行分析,以优化课时的具体分配问题。
3.3聚类分析算法的实践应用
聚类分析其实是无监督分类,其目的在于实事求是地按被处理对象的特征分类,有相同特征的对象被归为一类。高校教务管理实践中,运用聚类分析算法,可以在命题质量分析方面获得良好的应用效果。在高校教学管理中,课程的命题考试是在很大程度上体现了该课程的教学情况如何,也反映了学生学习情况和达标情况是怎样。因此,在进行命题考试完成以后,就要对成绩进行分析。按照一般规律,学生学习成绩应呈正态分布。只有当分数较高和分数较低两头比例小,中间部分比例大,说明这次命题的试卷质量好,试题编制较为成功。
3.4异常检测的应用实践
异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。通过异常检测算法,就能发现系统中存在的异常点,有效地避免出现对信息的误判或遗漏的现象。在高校教务管理实践中,应用异常检测来行学籍预警,就能取得良好的效果。比如我们可以对教务系统里面学生对应的信息特征进行提取,类似于“登陆教务系统的频率”、“考试成绩”、“补考/缺考记录”、“网上选课记录”等数据,当特征值低于某一阈值的时候,学生即有可能处于“离校而未办理学籍”等异常状态。以此来加强对学生学籍问题的管理。
[1]DunjaM.Text-LearningandIntelligentAgents.1998.
关键词数据挖掘预警模型关联规则决策树
中图分类号:TP315文献标识码:ADOI:10.16400/ki.kjdks.2015.02.074
DynamicWarningModelofStudents'Achievement
BAIJin,LIULinjing,ZHOUJianghui
(BusinessInformationCollege,ShanghaiUniversityofInternationalBusinessandEconomics,Shanghai201600)
AbstractThroughtheuseoftheSenateHigherEducationalAdministrationManagementInformationstorage,developmentanddesignbasedonstudentachievementdataminingdynamicwarningmodel;theintroductionofdataminingassociationrulesanddecisiontreemethodusingApriorialgorithmandID3algorithmseparatelyonstudentachievementdatamininginordertofindtheintrinsiclinkbetweenthecourseandtheywereusedasassociationrulesforstudentachievementwarning,finalcomparisonofthetwoalgorithms,selectingoptimumalgorithmmodelasthefinalscoreearlywarningmodels.Thewarningmodelisbeneficialforstudentstomakeearlywarning,toimprovestudentachievementwithgoodresults.
Keywordsdatamining;warningmodel;associationrules;decisiontree
0引言
1基于数据挖掘技术的成绩预警模型
预警主要分为两个部分:规则产生和规则匹配。规则产生部分,预警模型接收学生成绩训练集,从中依靠内部算法获取符合要求的成绩预警规则。规则匹配部分,预警模型接受待处理学生成绩和课程,而后根据规则产生部分产生的规则,进行逐一匹配、筛选,最后输出预警信息。
如图1所示,基于数据挖掘的成绩预警模型由数据输入/输出接口,数据预处理模块、预警规则挖掘模块、成绩预警规则库和预警模块5部分组成。其中,预警规则挖掘模块是该模型的核心部分,它负责从输入的训练集中挖掘预警规则,并将符合条件的规则储存到预警规则库中。预警模块式将从数据预处理模块里的学生成绩和课程信息,与成绩预警规则库中的规则匹配,再根据已设定的预警条件比较,继而决定是否生成预警信息。数据输入/输出接口、预警模块可以实现实时的学生成绩预警信息,到达动态预警的目的。
图1基于数据挖掘的成绩预警模型
2基于关联规则的成绩预警模型
2.1关联规则和Apriori算法
设={,,……,}是项(Item)的集合。记为事务的集合,事务是项的集合,并且。对应每一个事务有唯一的标识,如事务号,记作。设是一个中项的集合,如果,那么称事务包含。项的集合称为项集。包含个项的项集称为项集。项集的出现频率是指包含该项集的事务数,简称为项集的频率或支持度计数。
定义1一个关联规则是形如的蕴涵式,这里,,并且∩=。
定义2规则在事务数据中具有支持度,表示支持度S(support)是事务集中同时包含和的事务数与所有事务数之比,记为support(),即:
support()=O{:∪,}O/OO?00%=%
定义3规则在事务集中的置信度(confidence)是指包含和的事务数与包含的事务数之比,记为confidence(),即:
confidence()=O{:∪,}O/O:,O?00%=%
定义4同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称为关联规则,即S()>min_sup且C()>min_conf成立时,规则称为强关联规则。
Apriori算法是关联规则的重要方法,是挖掘布尔型频繁项目集的算法。它使用一种称为逐层搜索的迭代方法,“K-项集”用于探索“K+1-项集”。这是一个基于两阶段频繁集思想的方法,将关联规则算法的设计分为两个子问题:①找到所有支持度大于min_sup的项集,即频繁项集。②使用第一步找到的频繁项集找到置信度大于或最小置信度min_conf的关联规则。
2.2基于关联规则的发现
2.2.1数据预处理
由于目前高校成绩数据库中存贮的成绩信息主要是百分制的成绩和五分制成绩为主,所以需将实验数据进行处理、变换。本文基于关联规则的成绩预警模型方法是将学生成绩变为离散的布尔类型数据(0,1)。具体为:将学生成绩大于该科平均分的,记为0;小于该科平均分的,记为1。再添加辅助列“预警”,如果学生成绩存在不及格科目,记为“Y”;不存在不及格科目的,记为“N”。一般而言,数据变换的过程需要经历数据选择、数据清洗(多次成绩处理和缺失成绩处理)、数据集成和变换等步骤。
2.2.2基于关联规则挖掘结果分析
实现本模型的软件环境为操作系统为WindowsXP,采用Oracle数据库管理系统提取学生成绩,并使用SPSSClementine软件进行数据挖掘工作。根据Clementine软件的特点,本实验选择处理时将低于平均成绩记为“1”,高于平均成绩的记为“0”。这样的目的是使本次分析出的关联规则方向为:对于学生成绩不及格情况下,各个课程之间的关联性。
表1挖掘出的规则数和类规则平均预测准确率
以教务管理系统中导出信息管理与信息系统2010级和2011级部分学生3年的成绩为训练集,以其余学生3年成绩为测试集Dtest,用以挖掘课程和学生成绩之间的关联关系。并最终,选择信息管理与信息系统的10门必修课程成绩作为最后实验数据。10门课程为:数据结构,数据仓库与数据挖掘,数据库原理与应用,操作系统,C++面向对象程序设计,程序设计基础(英),微积分(I),微积分(II),概率论,线性代数。
设={,,…}为类关联规则的规则集。将已经产生的关联规则,记为(,),得到类关联规则:(,),为类别。记为类别为“Y”的数据集合。定义类规则:(,)的预警准确率为(),类规则集的预测准确率为()。
(公式1)P()=
(公式2)()=
经过反复试验、验证,分别设置最小支持度分别为0.40、0.37、0.34,最小置信度为0.90、0.87和0.84,在此参数条件设置下挖掘类规则集预警准确率。
上文所提出的模型从上述实验结果看,准确性在60%~70%之间。实验结果表明,该模型及其方法在实践上是有效的。
3基于决策树算法的成绩预警模型
3.1决策树算法
决策树算法是一种典型的分类和预测方法,也是一种逼近离散函数值的方法。它具有算法思想简单,识别样本效率高,对噪声数据有很好的健壮性等优点。决策树使用样本的自身属性作为节点,用属性取值作为分支的树型结构。它的根节点是所有样本中信息量最大的属性。ID3算法是机器学习领域中最具有影响力的决策树方法之一,采用自顶向下的递归方法C4.5是ID3算法的改进算法,它增加了:能够对连续属性离散化处理等变化。而C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。本文采用C5.0算法进行挖掘分析。
3.2基于C5.0算法的发现
(1)数据预处理。将如表1所示的原始数据,将成绩分为3种:“0<成绩<60”记为“差”;将“60<=成绩<80”记为“一般”;将“成绩=>80”记为“好”。并增加一列“预警”,将学生成绩存在挂科的记为“Y”;不存在挂科的记为“N”。
(2)基于C5.0算法挖掘结果分析。使用SPSSClementine软件进行分析,选择将决策树进行剪枝,将科目:数据仓库与数据挖掘和C++面向对象程序设计和操作系统从决策树中剪去。
最后,从决策树中抽取的规则为(表2):
(3)准确性测试。设={,,…}为从决策树中抽取的规则的规则集。设,,…,为课程名,有个取值:{,,…,}。={,,…}为类别的集合。定义规则:=,…,=,then的预警准确率为,类规则集的预测准确率为。
(公式3)=
(公式4)()=
通过训练集Dtest,本模型通过上述数据可达到60%的预警准确率。实验结果也表明,基于决策树技术的学生动态成绩预警模型在实践上是有效的。但据历史经验来看,C5.0算法优势在与准确性高,而本次试验准确率却为60%,初步分析是由于试验数据有限,对准确性测试过程产生了一些影响。
4结论
在将两种方法的输出转化为统一输出后,即两种方法输出都为:预警类别,因此,可直接进行准确性比较。通过比较上述两种模型和方法,发现选用Apriori算法,模型预警率较高。而且C5.0算法预警率较低。对数据的噪声较为敏感,训练集中的一些错误会对实验结果产生较大影响。当C5.0算法训练集增加时,C5.0的决策树也会变化,所以当学生成绩训练集变化时,成绩决策树变化,从而使预警规则库发生不断变化,这对于成绩预警过程来说,是不方便的。
通过设计基于关联规则的成绩动态预警模型,初步证明了基于数据挖掘的预警技术是有效的。随着对应用领域的不断深入开发,对基于数据挖掘的预警技术的深入研究,相信该模型、机制具有更广阔的前景。
注释
①魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值.现在教育技术,2013(2).
②叶福兰.基于数据挖掘的高校学生成绩预警状况分析.长春师范学院学报(自然科学版),2013(5).