测验的信度又称测验的可靠性,是指同一个测验对同一组被试施测两次或多次,所得结果一致形程度。一个好的测验必须是稳定可靠的,多次使用所获得的结果是前后一致的。例如,用直尺测量长度,其结果是稳定可靠的;用橡皮筋测长度则是不可靠的,前后测量结果缺乏一致性。在测量理论中,信度被定义为:某次测验分数的真变异数与总变异数(即实测分数)之比:
ST2
Rxx=───
Sx2
式中Rxx表示测量的信度,ST2代表真分数的变异数(方差),Sx2表示实得分数的变异数(方差)。
从上式可看出,(1)信度是指实测值和真值相差的程度,实测值是指对某物实际进行测量时所获得值,也称实测分数(X);真值是指被测事物的真实规模取值,也称真分数(T)。由于各种原因,实得分数常不等于真分数,两者之差称为测量误差或误差分数(E)。从理论上看,实得分数由真分数和误差分数两部分组成即:
X=T+E
Rxx就是对一组测验数据的实测分数与真分数相差程度的最好估计。
(2)信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中,受测者所得分数或所处等级前后一致,则说明测验结果的信度较高;反之,两次测验结果一致性低,说明测验结果的信度低。
信度是任何一种测量的必要条件(但不是唯一条件),只有测量值接近或等于真值,用同一工具多次测量同一特性获得相同或相近的结果,才能认为这个测量结果是可靠的。信度对于教育测量尤其重要,只有信度高的教育测验才能成为教育工作者有用的工具,才能为教育工作者提供可靠的信息,为教育预测和决策提供客观依据。
2、信度的估计方法
测验的信度是用信度系数的大小来表示的,根据测量理论,信度系数
Rxx=───,
∑X1X2/N-M1M2
Rxx=─────────────
S1·S2
式中X1.X2为同一被试的两次测验得分,M1.M2为两次测验的平均分数,S1.S2是两次测验的标准差,N是被试人数。
要求得分半信度,首先要将测验分成对等的两半。绝大多数测验是由许多题目排列组成的,但是若将测验简单地分成前后两部分,常常是不对等的,对等的两部分起码有两个要求:一是测验的两部分在难度、区分度及测验目标上基本是相同的;一是被测者以同等的态度来对待两部队测验,即在完成两部分测验过程中,练习,疲劳,情绪等因素对被试产生了同等的影响。因此,将一个测验分成两部分时,常用的是奇偶分半法,即将奇数题分为一部分,将偶数题分为一部分。特别是测验题目是按由易到难排列时,这种分法可以将测验分为大致相等的两半,但是,对于速度型的测验不适合用奇偶分半法。
用分半法求出的测验的信度系数并不能反映整个测验的信度。这是因为信度受测验的长度的影响,测验越长,信度越高,将测验分成两半求得的信度系数,低估了整个测验的信度,因此,需对测验系数加以校正,校正公式是斯皮尔曼—布朗(Spearman—Brown)公式:
2Rhh
Rxx=─────
1+Rhh
弗朗那根(Flanagan)公式:
Sa2+Sb2
Rxx=2·(1-━────)
Sa2和Sb2分别代表两个分测验分数的变异数,Sx2代表整个测验的变异数。
卢伦(Rulon)公式:
Sd2
Rxx=1-━───
Sd2代表两个半测验分数之差的变异数,Sx2代表总测验变异数。
对于由客观性题目组成的测验(即答对一题得一分,答错得0分),则可用库得─理查逊(Kuder─Richardson)公式估计测验的内部一致性:
k∑(pq)
Rkk=(────)(1-──────)
k-1Sx2
k为测验的总题目数,p为某一个题目的答对率或通过该题目的人数比例,q为未通过该题目的人数比例,p=1-q,Sx2为测验总分的方差。
对于由客观性题目和主观性题目组成的测验,有些题目是多重计分的情况下,则要用克伦巴赫(Cronbach)公式计算α系数来估计测验的内部一致性:
k∑Si2
α=(────)(1-─────)
k为测验题目总分,Si2是某一题目得分的方差,Sx2是整个测验分数的方差。
上面这些公式不适用于速度性测验,因为只有每个人做完所有的题目,题目的方差才是准确的。
3、提高测验信度的方法:
影响测验信度的误差归纳起来主要有:
(1)抽样误差:简单说,这是在抽样过程中由于被试间的差异所造成的误差。被试间的差异可以用全距和方差大小来表示。全距是指某一心理量最大值与最小值之差。全距大说明被试间差异大,全距小说明被试间差异小。被试间在某一心理量上参差不齐,差别悬殊,则该心理量的方差大;反之,方差小。对于方差小的样本,被试间在某一心理特征上相差较小,则前后两次测验结果的一致性较低,即降低了信度。因为被试之间的差别越小其同质性越高,被试的分数只要发生小的变化,其名次就可能改变,从而降低信度。
(2)随机误差:由于各种偶然因素的影响而产生的误差,表现为用同一方法多次测量同一对象时结果上不一致。随机误差是由许多因素造成的,如量标的质量,测量的程序,被试的身心状态,测量的环境等。
根据影响测验信度的因素,可从以下几方面来提高测验的信度:一是从测验本身考虑,如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等;一是从被试自身考虑,如被试在被测心理特征上的差异大小,参加测验的动机水平,对测验的态度和积极性等。在此主要介绍如下几种提高测验信度的方法:
(1)适当延长测验的长度:
(2)测验的难度要适中:难度即测验的难易程度,当测验难度太大时,被试得分普遍太低,呈负偏态分布;当测验难度太小时,被试得分普遍较高,呈正偏态分布。太难太易的测验都使被试得分差异减小,使实得分数方差减小,从而降低测验信度。参见公式:
δE2
R=1-─────
δx2
(3)测验的内容尽量同质:性质相同的测验内容,对被试也要求相同的能力、知识和技能;而内容不同质的测验,则要求被试不同的能力、知识和技能。因而为了提高测验信度,测验内容应尽量同质。
(6)评分要客观:评分是否客观对测验信度有直接的影响。对于客观性题目,评分标准明确,评分容易做到客观;但对于主观性题目,受评分者影响较大,不易做到客观。为了尽可能客观评分,应制定明确而易掌握的评分标准,尽量做到一卷多评,或一人只评一题等。
(二)效度
1、效度的含义
效度(Validity)是指测量的有效程度或测量的正确性,即一个测验能够测量出所要测量特性的程度。例如,用直尺测量长度是有效的,而用来测量温度则是无效的。对效度的定义可作如下理解:
(1)任何一种测验只是对一定目的来说才是有效的。
(2)测验的效度是对测量结果而言的,即一种测量工具只有经过实际测量,才能根据测量结果判断它的效度。
(3)测验的效度是相对的而非绝对的。测验是根据行为样本,对所要测量的心理特性作间接推断,只能达到某种程度的准确性,而没有全有、全无的差别。
在测量理论中,效度被定义为:在一系列测量中,与测量目的有关的真变异数(即有效变异)与总变异数之比:Sv2
rxy2=───────
rxy表示测量的效度系数,Sv2代表有效变异数,Sx2代表总变异数。
根据上述公式,可看出效度与信度的关系:
∵Sx2=Sv2+SI2+SE2
ST2=Sv2+SI2
Sv2ST2-SI2SI2
∴rxy2=───=─────=rxx-─────
Sx2Sx2Sv2
∴rxy2≤rxx
SI2表示系统误差方差,它稳定地与有效方差结合在一起,对信度没有影响,而影响效度。从以上证明看出,测验的效度受测验的信度所制约,而且效度系数不会大于信度系数。效度高的测验,信度必定高;但信度高的测验,效度则未必高。
2、效度的类型与估计
(1)内容效度(ContentValidity):是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。例如,以考查学习成绩为目的的测验来说,"所欲测量的内容"是指教学大纲所规定的全部教材;"起预期反应"是指学生学习这些教材所产生的行为变化,如对教材的记忆、理解和应用。
在编制测验时,内容效度是一个相当复杂的问题,例如教师编制学绩测验,其目的是了解学生在某一学科或专题上对知识掌握情况,若条件允许,应该对大纲规定的所有内容进行全面考试,这显然是行不通的,只能从这一范围总体内容中选取有代表性题目(样本),组成测验,根据测验分数推论学生对该范围总体知识的掌握。若测验题目较好地代表了这个知识范围,则推论是有效的,即测验的内容效度高;若选题有偏差,则推论是无效的,即测验的内容效度低。从另一方面看,测验题目所引起的被试反应(是一个样本),若能代表其对本学科或专题的全部行为反应,也说明该测验是有效的;反之,则是无效的。因此,一个测验要有较高的内容效度应具备如下两个条件:1.要有定义好的内容范围。2.测验题目取样应有代表性(对所界定的内容范围而言)。
估计内容效度的方法:
A、由专家进行逻辑分析:即请有关专家对测验题目与原来的内容范围是否符合进行分析,作出判断,看测验题目是否较好地代表了原来的内容。
另外,有经验的任课教师对本学科测验的内容效度有较好的判断。当然,若能与有关专家配合会更好些。
(2)结构效度(ConstructValidity):又称构想效度,是测验对某一理论概念或心理特质测量的程度。即某测验对所要测量的结构或心理特质实际测量的程度。心理测验都是建立在心理学理论基础的,例如比纳─西蒙智力量表的制订,心理学家比纳(Binet)首先详细研究了智力的结构,他认为智力行为是一种连锁性的过程,包括判断、推理、解决问题等。他根据这一理论编制的智力测验,确实测量出被试的判断、推理和解决问题能力,可以认为他所编制的测验具有结构效度。一般说,学科测验主要看内容效度,心理测验主要看结构效度。判断内容效度更容易一些,有教学大纲作依据;判断结构效度更难一些,因为理论结构和心理特质不易把握。因此,要制订有构想效度的测验,首先要建立理论结构,例如智力测验,先要确定关于智力的一套理论,如智力的概念、结构、与环境的关系、与年龄的关系、与性别的关系等,在理论的基础上提出若干假设并编制测题。
确定结构效度的方法:
A、对测验题目进行分析:主要是分析测验的内容,被试对题目所作的反应,测验题目的同质性以及分测验之间的关系来判断测验的构想效度。
C、因素分析:通过因素分析找到影响测验分数的共同因素,在测验分数的总变异中来自有关因素的比例,可以作为构想效度的指标。
估计预测效度的主要方法是:
C、功利率:为了测定测验的功效,人们还可对使用测验所化掉的费用与得到的利益进行比较,看其利弊大小,这种效度指标叫功利率。
U=B(Ns)-C(Nu)-S
U代表功利率,B表示录用一个合格的工人所产生的平均利润,C表示录用一个不合格的工人所造成的损失,Ns和Nu分别代表所录用的人中成功和不成功的人数,S代表整个选人程序的费用。
计算功利率说明,如果一个测验简单易做,适合于团体施测,即使效度低些,也会有人采用;反之,如果测验复杂,只能个别施测,费时费力,那么只有效度极高,给人带来极大好处时,人们才会使用它。
提高测验效度对教育测验非常关键,效度系数多大合适要根据测验的具体情况而定:
(1)智力测验分数与熟悉教师对学生智力等级评定之间的效度系数一般在0.30─0.50之间。教师评定常受许多其他因素的影响。
0.60─0.80
3、提高测验效度的方法:
(2)控制系统误差:系统误差是影响测验效度的主要因素。它主要包括仪器不准,题目和指导语有暗示性,答案按排不当(被试可以猜测)等,控制这些因素可以降低系统误差,提高效度。
(2)精心编制测题和测验量表:首先测题内容要适合测验目的,如知识性测题就不能全面反映被试的智力水平,它主要测量其知识水平。其次,测题要清楚明了,用语要让被试理解,排列由易到难。第三,测题的难度和曲分度要合适。
(3)严格按照测验程序进行测量,防止测量误差:要严格按照测验手册进行测量,不能作过多的解释,按标准评分,两次测验间隔要适当。
(4)样本容量要适当:当样本容量增大时,样本对总体的代表性提高,样本大,被试的内部差异增大,扩大了真分数的方差,使效度提高。样本容量一般不应低于30。另外,抽样方法也很重要,一般用随机抽样,当群体很大时,可分层抽样,样本容量扩大时,其代表性才随之增大。
(6)适当增加测验的长度:增加测验的长度可提高测验的信度,也可以提高效度,但增加测验的长度对信度的影响大于对效度的影响。如果增加测验长度到原来的n倍,则新测验的效度系数Rnxy计算公式: