第四章测量的信度课件

上传人:仙*** 文档编号:168136682 上传时间:2022-11-08 格式:PPT 页数:94 大小:924KB
收藏 版权申诉 举报 下载
第四章测量的信度课件_第1页
第1页 / 共94页
第四章测量的信度课件_第2页
第2页 / 共94页
第四章测量的信度课件_第3页
第3页 / 共94页
资源描述:

《第四章测量的信度课件》由会员分享,可在线阅读,更多相关《第四章测量的信度课件(94页珍藏版)》请在装配图网上搜索。

1、1Measurement Reliability 第四章第四章 测验的信度测验的信度2Measurement Reliability导学导学信度是评价信度是评价测验优劣测验优劣的重要指标,了解信度的相关知识是的重要指标,了解信度的相关知识是编制优质高效测验的前提。通过本章的学习我们可解决编制优质高效测验的前提。通过本章的学习我们可解决三个问题:三个问题:一、明确信度的理论定义及操作定义;(难点)一、明确信度的理论定义及操作定义;(难点)二、掌握几种常模参照测验的信度估计方法;(重点)二、掌握几种常模参照测验的信度估计方法;(重点)三、了解影响信度的因素,在信度估计时尽量避免由此三、了解影响信度

2、的因素,在信度估计时尽量避免由此造成的误差造成的误差;提高信度的方法。;提高信度的方法。3Measurement Reliability第一节第一节 信度概述信度概述一、什么是信度一、什么是信度 1.1.信度的理论定义信度的理论定义 信度即测量结果的信度即测量结果的稳定性稳定性、一致性一致性或或可靠性可靠性。是。是用同一测量工具反复测量某人的同一种心理特质,用同一测量工具反复测量某人的同一种心理特质,所得结果的一致性程度。所得结果的一致性程度。4Measurement Reliability2.信度的统计定义信度的统计定义定义定义1:信度是被试团体真分数方差与实得分数方差之比:信度是被试团体真

3、分数方差与实得分数方差之比定义定义2 2:信度是被试团体真分数与实得分数相关系数的平方:信度是被试团体真分数与实得分数相关系数的平方定义定义3 3:信度是一个测验:信度是一个测验X X(A A卷)与它的任意一个平行测验卷)与它的任意一个平行测验(B B卷)的相关系数卷)的相关系数2TXXXrXXXXr rxx代表测量的信度,代表测量的信度,S2T代代表真分数的变异数,表真分数的变异数,S2x代代表是实得分数的变异数,即表是实得分数的变异数,即总变异数。总变异数。5Measurement Reliabilityl 由于真分数的方差无法统计,可转化为:由于真分数的方差无法统计,可转化为:rxx=(

4、S2x-S2E)/S2x=1-S2E/S2x 该定义有两点需要注意:该定义有两点需要注意:第一、信度指的是一组测验分数或一列测量的特性,而第一、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性;不是个人分数的特性;第二第二 、真分数的变异数是不能直接测量的,因此信度是、真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数做出估一个理论上构想的概念,只能根据一组实得分数做出估计。计。6Measurement Reliabilityl 信度只受随机误差的影响。随机误差越大,信度越低。l 信度不受系统误差的影响。7Measurement Reliabili

5、ty二、信度指标二、信度指标1.信度系数与信度指数信度系数与信度指数l 大部分情况下,信度是以大部分情况下,信度是以信度系数信度系数为指标,信度系数为指标,信度系数又以又以相关系数相关系数表示,即用同一被试样本所得的两组资表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称作信度系数料的相关系数作为测量一致性的指标,称作信度系数(rxx)信度系数是表示测量结果的信度系数是表示测量结果的稳定性程度稳定性程度的指的指标。标。l rxx=r2XT=s2T/s2xl rXT信度指数,它的平方就是信度系数信度指数,它的平方就是信度系数8Measurement Reliability信度

6、系数是表示测量结果的稳定性程度的指标。记为:信度系数是表示测量结果的稳定性程度的指标。记为:XXr信度系数的值域:信度系数的值域:?没有百分之百可靠的测量,因此,没有百分之百可靠的测量,因此,rXX=1只是理只是理论上的值,实际当中是不会存在的。论上的值,实际当中是不会存在的。相关系数的值域是相关系数的值域是-1,+1,信度系数的值域:,信度系数的值域:0,1,为什么?为什么?0,19Measurement Reliability经典测量理论的信度系数经典测量理论的信度系数l 重测信度稳定性系数l 复本信度等值性系数、等值性与稳定性系数l 内部一致性系数分半信度、同质性信度l 评分者信度肯德尔

7、和谐系数10Measurement Reliability对信度系数要注意的几点:对信度系数要注意的几点:l 1.在不同情况下,对不同样本,采用不同方法在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不会得到不同的信度系数,因此一个测验可能不只一个信度系数。只一个信度系数。l 2.信度系数只是对测量分数不一致程度的估计,信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。并没有指出不一致的原因。l 3.获得较高的信度系数并不是心理测量追求的获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测量最终目的,它只是迈向目标的一步,是使测

8、量有效的一个必要条件。有效的一个必要条件。11Measurement Reliability信度系数要达到多高才可以接受呢?信度系数要达到多高才可以接受呢?l 最理想的是最理想的是r rxx xx 1.00,1.00,但办不到但办不到l 研究结果显示,能力,成就测验都在研究结果显示,能力,成就测验都在0.900.90以上,有的还以上,有的还可以达到可以达到0.950.95以上以上;人格测验、兴趣、态度、价值观等都人格测验、兴趣、态度、价值观等都在在0.800.800.850.85。l 一般原则:一般原则:l 当当r rxxxx0.700.70时,测验不能用于对个人作出评价或预测,时,测验不能用

9、于对个人作出评价或预测,而且不能做团体比较;而且不能做团体比较;l 当当0.70r0.70rxx xx 0.850.85时,可用于团体比较;时,可用于团体比较;l 当当r rxxxx0.850.85时,才能用来鉴别或预测个人成就或作为。时,才能用来鉴别或预测个人成就或作为。l 另一原则:新编的测验信度应该高于原有的同类测验或另一原则:新编的测验信度应该高于原有的同类测验或相似测量相似测量12Measurement Reliability测验类型测验类型 信度系数信度系数 低低中中高高学业成就测验学业成就测验0.660.920.98学术能力测验学术能力测验0.560.900.97特殊能力倾向测验

10、特殊能力倾向测验0.260.880.96人格测验人格测验0.460.850.97兴趣测验兴趣测验0.420.840.93态度测验态度测验0.470.790.98注:表中数据来源,Lewis R.Aiken:Psychological testing and assessment(eighth edition),Allyn and Bacon,Inc,1994.13Measurement Reliabilityl 2.标准误标准误l 信度系数仅表示一组测量的实得分数与真分数的符合程信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。由于误度,但并没有直接指出

11、个人测验分数的变异量。由于误差存在,一个人所得分数有时比真分数高,有时比真分差存在,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可以对一个人施测无数低,有时二者相等。理论上我们可以对一个人施测无数次测验,然后求得分数的平均数和标准差。这个平均数次测验,然后求得分数的平均数和标准差。这个平均数就是这个人的真分数,而标准差就是测量误差大小的数就是这个人的真分数,而标准差就是测量误差大小的指标。但在实际上是行不通的。然后,我们可以用一组指标。但在实际上是行不通的。然后,我们可以用一组被试两次测量结果来代替对同一人的反复施测,被试两次测量结果来代替对同一人的反复施测,以估计以

12、估计测量误差的变异数。测量误差的变异数。14Measurement ReliabilityxxxrSSE1n此时,个人在两次测验中的分数差异就是测量误差。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差(据此可制成误差分数的分布。这个分布的标准差(误误差分布的标准差差分布的标准差)我们称之为)我们称之为测量的标准误测量的标准误,是表示是表示测量误差的大小测量误差的大小的指标,其计算公式为:的指标,其计算公式为:SESE表示测量的标准误,即误差分布的标准差;表示测量的标准误,即误差分布的标准差;SxSx表示实表示实得分数的标准差;得分数的标准差;r rxx

13、xx表示信度系数。表示信度系数。15Measurement Reliability三、信度的作用三、信度的作用(信度与测验分数的解释)(信度与测验分数的解释)1.信度是测量过程中所存在的随机误差大小的反映信度是测量过程中所存在的随机误差大小的反映 (解释真实分数与实得分数的相关)(解释真实分数与实得分数的相关)l 信度系数可以解释为:总的方差中有多少比例是由真实信度系数可以解释为:总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。的变异占百分之几。l 例如,例如,r=0.9r=0.9时,实得分数时,实得

14、分数9090的变异来自真分数,的变异来自真分数,1010来自误差。来自误差。r=1r=1呢?呢?r=0r=0呢?呢?l 信度系数从信度系数从0.000.001.001.00,代表了从缺乏信度到完全可信,代表了从缺乏信度到完全可信的所有状况的所有状况l 信度系数也告诉我们误差有多大信度系数也告诉我们误差有多大16Measurement Reliability2.确定信度可以接受的水平确定信度可以接受的水平l 最理想的是最理想的是rxx 1.00,但办不到但办不到l 研究结果显示,能力,成就测验都在研究结果显示,能力,成就测验都在0.90以上,有的以上,有的还可以达到还可以达到0.95以上以上;人

15、格测验、兴趣、态度、价值观人格测验、兴趣、态度、价值观等都在等都在0.800.85。l 一般原则:一般原则:l 当当rxx0.70时,测验不能用于对个人作出评价或预时,测验不能用于对个人作出评价或预测,而且不能做团体比较;测,而且不能做团体比较;l 当当0.70rxx 0.85时,可用于团体比较;时,可用于团体比较;l 当当rxx0.85时,才能用来鉴别或预测个人成就或作时,才能用来鉴别或预测个人成就或作为。为。l 另一原则:新编的测验信度应该高于缘由的同类测验或另一原则:新编的测验信度应该高于缘由的同类测验或相似测量相似测量17Measurement Reliability3.解释个人分数的

16、意义解释个人分数的意义l 作用:其一是估计真实分数的范围;其二是了解实作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。得分数再测时可能的变化情形。这就是这就是测量标准误测量标准误的应用。的应用。xxxrSSE1l X1.96SE T X1.96 SE真分数的估计区间为:真分数的估计区间为:19Measurement Reliabilityl 我们可以用测量的标准误来估计个人测验的真分数的大小。l 如果选用95的可靠性水平(置信水平),即显著性水平(a值)为.05,真分数有95的可能落入X SE,即X 1.96 SE的范围之内,也可以写成X1.96SE T X1.96 S

17、E,SE则用公式代入。或有5的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。l X1.96SETX+1.96SE20Measurement Reliabilityl 例:在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?l 已知该智力测验的标准差为15,信度系数为.84,则其IQ的测量标准误和可能范围为:l 15 1 0.846.0IQ100 1.96SE100 11.76 88112SE 21Measurement Reliabilityl 注意几点:注意几点:l(1 1)SESE对真分数做的是对真分数做的是区间估计区间估计

18、,不可能由此得到一,不可能由此得到一个确切的点。这就是说,测验分数不是一个定点,而是个确切的点。这就是说,测验分数不是一个定点,而是具有一定的分布范围。因此,两次测验分数之间存在差具有一定的分布范围。因此,两次测验分数之间存在差异是很正常的。异是很正常的。l(2 2)置信水平确定后,估计的精度主要取决于)置信水平确定后,估计的精度主要取决于SESE,SESE越小,范围越小,估计就越精确,反之也然。越小,范围越小,估计就越精确,反之也然。l(3 3)真分数不能等同于真正能力或心理特质,真分数)真分数不能等同于真正能力或心理特质,真分数中包括了系统误差。中包括了系统误差。22Measurement

19、 Reliability4.比较不同测验分数的差异比较不同测验分数的差异l 来自不同测验的原始分数是无法直接进行比较的,只有来自不同测验的原始分数是无法直接进行比较的,只有将它们转换成相同尺度的标准分数才能进行比较。将它们转换成相同尺度的标准分数才能进行比较。l 这种比较包括两个人不同分数的差别和同一被试在两个这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。测验上的差别。SEdSEd为差异的标准误,为差异的标准误,S S代表两个测验使用的标准差,这代表两个测验使用的标准差,这个标准差要相同,因为只有在两个分数具有相同的单位个标准差要相同,因为只有在两个分数具有相同的单位时才可以比

20、较。时才可以比较。r rxxxx、r ryyyy分别为两个测验的信度系数。分别为两个测验的信度系数。yyxxdrrSSESESE2222123Measurement Reliabilityl例;某被试在韦氏成人智力测验中言语智商为例;某被试在韦氏成人智力测验中言语智商为102,操作智,操作智商为商为110。已知两个分数都是以。已知两个分数都是以100为平均数,为平均数,15为标准为标准差的标准分数。假设言语测验和操作测验的分半信度分别为差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和和0.88。问其操作智商是否显著高于言语智商呢?。问其操作智商是否显著高于言语智商呢?l首先计算出

21、差异分数的标准误:首先计算出差异分数的标准误:l在统计上,经常要求两个分数的差异程度达到在统计上,经常要求两个分数的差异程度达到0.05的显著的显著水平,才能承认不是误差的影响。因此,将差异标准误水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以)乘以1.96,结果为,结果为14.7,这表明个体在韦氏测验,这表明个体在韦氏测验两半得分的差异高于大约两半得分的差异高于大约15分,才能达到分,才能达到0.05显著水平。显著水平。上述被试的差异分数上述被试的差异分数110-102=8是不显著的。是不显著的。24Measurement Reliability课堂练习课堂练习l 1.某个被试

22、的测验某个被试的测验IQ=100,再测的分数可能是多少?再测的分数可能是多少?(已知测验的标准差为(已知测验的标准差为15,信度系数为,信度系数为0.90).l 2.被试在韦氏智力测验中言语智商为被试在韦氏智力测验中言语智商为102,操作智商,操作智商为为110。两个分测验都是以。两个分测验都是以100为平均数,为平均数,15为标准为标准差的标准分数。假设言语测验和操作测验的分半信度分差的标准分数。假设言语测验和操作测验的分半信度分别为别为0.93和和0.94.问其操作智商是否显著高于言语智问其操作智商是否显著高于言语智商?商?9595的可能在的可能在90.690.6109.4109.4之间之

23、间25Measurement Reliability课后作业课后作业l 1.某智力测验的信度某智力测验的信度r=0.75,某次施测得到标准差为,某次施测得到标准差为3.00,则该测验的测量标准误是多少,若某被试得分,则该测验的测量标准误是多少,若某被试得分为为100,试估计其真分数,试估计其真分数1-=.95的置信区间的置信区间l 2.某测验的信度为某测验的信度为0.75。要使该测验的信度达到。要使该测验的信度达到0.90,须增加多少题目(原测验长度的多少倍),须增加多少题目(原测验长度的多少倍)?l 3.一个包含一个包含10个题目的测验,信度为个题目的测验,信度为0.50,若增至,若增至50

24、个题目,其信度将是多少?个题目,其信度将是多少?l 4.书本书本P5758第第2、3题题26Measurement Reliability第二节第二节 信度的评估方法信度的评估方法一、重测信度一、重测信度二、复本信度二、复本信度三、内部一致性信度三、内部一致性信度四、评分者信度四、评分者信度27Measurement Reliability一、重测信度一、重测信度(Test-Retest ReliabilityTest-Retest Reliability)(一)含义(一)含义也叫也叫再测信度再测信度l 1.重复测验:重复测验:同一量表,同一被试群体,在不同时间,同一量表,同一被试群体,在不同

25、时间,两次施测。两次施测。l 2.重测信度:重测信度:用同一测验,对同一组被试前后两次施测,用同一测验,对同一组被试前后两次施测,两次测验分数之间的相关程度(用相关系数来表示)就两次测验分数之间的相关程度(用相关系数来表示)就是再测信度。是再测信度。l 3.重测信度实质重测信度实质:主要考察了一个测量工具是否能够保:主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,表示测验结果的稳定证在不同时间测量结果的一致性,表示测验结果的稳定性。故称之为性。故称之为稳定性系数稳定性系数(Coefficient of Stability)l 4.形式:形式:施测施测A1适当时间适当时间再施测再施

26、测A228Measurement Reliabilityl 一般来说,重测的时间间隔越短,那么各种施测情一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,重测信度系数就会越大。境的变化就越小,重测信度系数就会越大。l 重测信度系数较大时,说明该测量工具前、后两次重测信度系数较大时,说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的的测量结果比较一致。结果具有较好的跨时间上的稳定性。稳定性。29Measurement Reliability(二)评估方法 重测信度的大小可以通过计算测量工具的重测系数或重测信度的大小可以通过计算测量工具的重测系数或稳定性系数来标志。具体

27、来说,就是求取同一组被试稳定性系数来标志。具体来说,就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的在两个不同时间施测同一个测量工具所得结果分数的相关系数。相关系数。即积差相关法,即积差相关法,是皮尔逊的积差相关系数是皮尔逊的积差相关系数 rxx30Measurement Reliabilityl 例:例:10名学生两次测验的成绩如下,求该测验的重测信度?名学生两次测验的成绩如下,求该测验的重测信度?第第1次成绩:次成绩:86 58 79 64 88 58 55 82 32 75第第2次成绩:次成绩:88 56 89 76 85 68 47 76 45 7531Measurem

28、ent Reliability(三)重测信度应满足的条件(三)重测信度应满足的条件l 所测量的特征必须是稳定的所测量的特征必须是稳定的l 遗忘与练习的效果是相同的遗忘与练习的效果是相同的l 两次实测期间被试的学习效果没有差别两次实测期间被试的学习效果没有差别l 一般用于速度测验或人格测验,不用于难度测一般用于速度测验或人格测验,不用于难度测验验32Measurement Reliability(四)使用重测信度时需要注意的问题(四)使用重测信度时需要注意的问题 1.两次施测时间间隔的长短会影响重测信度系数估计值的两次施测时间间隔的长短会影响重测信度系数估计值的大小,大小,因此,在报告重测信度系

29、数时应该因此,在报告重测信度系数时应该报告间隔的时间报告间隔的时间长度。长度。2.应该间隔多长时间?应该间隔多长时间?应该根据已有的相关研究结论考虑应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度,以确定前后两次施测时所测心理特质本身的稳定性程度,以确定前后两次施测时间的间隔究竟应该多长比较合适时,不应该随便选择间隔间的间隔究竟应该多长比较合适时,不应该随便选择间隔时间的长短。对于年幼儿童,两次施测的时间间隔应该短时间的长短。对于年幼儿童,两次施测的时间间隔应该短于年龄大些的被试;于年龄大些的被试;智力测验的间隔一般在智力测验的间隔一般在6个月左右。个月左右。3.应注意提高被试的积极

30、性应注意提高被试的积极性33Measurement Reliability 一个测验就是一个重测信度吗?一个测验就是一个重测信度吗?34Measurement Reliability(五)重测信度的优缺点(五)重测信度的优缺点1.1.优点:优点:能提供有关测验结果是否随时间而变异的资能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。料,可作为预测受测者将来行为的依据。2.2.缺点:缺点:容易受练习和记忆的影响,前后两次施测间容易受练习和记忆的影响,前后两次施测间隔的长短必须适度隔的长短必须适度;第一次尝试所发现的错误第一次尝试所发现的错误也可能导致第二次反应的变化而增加

31、误差变异。也可能导致第二次反应的变化而增加误差变异。35Measurement Reliability二、复本信度二、复本信度(Alternate-form raliability)l(一)含义(一)含义l 1.复本测验:复本测验:指在指在题目内容、题型、题数、难度、区题目内容、题型、题数、难度、区分度、指导语、时限分度、指导语、时限等方面都一致(相等)的两份或多等方面都一致(相等)的两份或多份测验,又叫平行测验。份测验,又叫平行测验。l 即:用不同题目测量同样内容而且测验结果的平均值和即:用不同题目测量同样内容而且测验结果的平均值和标准差都相同的两个测验。标准差都相同的两个测验。l 任何测验

32、只是所有可能题目中的一份取样(行为样本),任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验(复本)。所以可编制许多平行的等值测验(复本)。l 2.复本信度复本信度:同一组被试在复本测验上所得结果的相同一组被试在复本测验上所得结果的相关系数。关系数。36Measurement Reliabilityl 3.实质:实质:反映了由于题目的不同以及时间间隔所导致反映了由于题目的不同以及时间间隔所导致的测量误差。的测量误差。l 4.形式:形式:等值性系数等值性系数 稳定性与等值性系数稳定性与等值性系数37Measurement Reliability(二)复本信度估计方法(

33、二)复本信度估计方法等值性系数(同一时间内连续施测)等值性系数(同一时间内连续施测)稳定性和等值性系数(相隔一段时间施测)稳定性和等值性系数(相隔一段时间施测)l 式中,式中,A A 、B B为同一被试在两个测验复份为同一被试在两个测验复份A A、B B上的分数,上的分数,A A、B B为为A A、B B两型测验的标准差,两型测验的标准差,N N为被试人数。为被试人数。38Measurement Reliabilityl 例:例:假设用假设用A A、B B两个创造力复本测验对初中一年级两个创造力复本测验对初中一年级1010个学生施测。结果见个学生施测。结果见下表。请计算复本信度。下表。请计算复

34、本信度。测验测验被试被试1 12 23 34 45 56 67 78 89 91010A A 2020191919191818171716161414131312121010B B2020202018181616151517171212111113139 939Measurement Reliability(三)复本信度要符合的条件(三)复本信度要符合的条件1.各份测验各份测验l 测量的是同一种心理特性。测量的是同一种心理特性。l 具有相同的内容和形式。具有相同的内容和形式。l 题目不应重复。题目不应重复。l 题目数量相等,难度和区分度大体相同。题目数量相等,难度和区分度大体相同。l 分数分布

35、(平均数和标准差)大致相等分数分布(平均数和标准差)大致相等。2.2.被试有条件接受两个测验被试有条件接受两个测验40Measurement Reliability1.1.两次测验的时间间隔要适当,若太短,由于测验太相两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长可能又会因新的学习而产生似被试可能厌倦,若太长可能又会因新的学习而产生干扰。干扰。2.应该尽量在测试结果报告中,详尽地说明两次测试的应该尽量在测试结果报告中,详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。验经历等。3.3.稳定性与等值性系

36、数是测验信度的最严格的考察,得稳定性与等值性系数是测验信度的最严格的考察,得到的是信度系数的下限。到的是信度系数的下限。(四)注意事项(四)注意事项41Measurement Reliability(五)使用复本信度的局限(五)使用复本信度的局限1.1.只能减少但不能完全消除练习和记忆的影响;只能减少但不能完全消除练习和记忆的影响;2.2.由于第二个测验只改变了题目的具体内容,已经掌握的解由于第二个测验只改变了题目的具体内容,已经掌握的解题原则可以很容易地迁移到同类问题。题原则可以很容易地迁移到同类问题。3.3.对许多测验来说,建立复本是十分困难的。对许多测验来说,建立复本是十分困难的。4.4

37、.被试易出现疲劳、失去积极性等反应。这些称为顺序效应,被试易出现疲劳、失去积极性等反应。这些称为顺序效应,为了抵消顺序效应,可随机分配一半被试先做复本为了抵消顺序效应,可随机分配一半被试先做复本A A再做再做复本,另一半被试先做复本再做复本复本,另一半被试先做复本再做复本A A,以平衡顺序,以平衡顺序效应。效应。42Measurement Reliability三、内部一致性信度三、内部一致性信度测验内部(或测题之间)的一致性信度。测验内部(或测题之间)的一致性信度。包括:包括:分半信度和同质性信度分半信度和同质性信度(一)分半信度(一)分半信度 1.含义含义l 分半信度分半信度(Split-

38、Half Reliability):指的是将一个:指的是将一个测验分成测验分成对等的两半对等的两半后,所有被试在这两半上所得分数后,所有被试在这两半上所得分数的一致性程度。的一致性程度。2.实质实质l 分半信度评价了测验两个随机组成部分的题目是分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。否测量了相同的心理特质。43Measurement Reliability3.估计方法估计方法l 皮尔逊积差相关皮尔逊积差相关l A、B为同一被试分别在两个半测验为同一被试分别在两个半测验A、B上的分数,上的分数,A、B为为A、B两半测验的标准差,两半测验的标准差,rhh为分半信度。为分半

39、信度。l 计算分半信度先要对测验分半。不同的分半法可能会得计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值,需要校正。到不同的信度值,需要校正。44Measurement Reliability4.分半信度的校正公式之一分半信度的校正公式之一l 由于在用分半测验得分计算相关系数时,测验题量被缩由于在用分半测验得分计算相关系数时,测验题量被缩短,信度系数需要通过以下这个公式对分半相关系数进短,信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。行矫正而得到。为两个分半测验之间的相关系数,为两个分半测验之间的相关系数,为完整长度测验的为完整长度测验的信度系数估计值。信度系数估计

40、值。45Measurement Reliabilityl 例:例:100个题目,分半信度个题目,分半信度r=0.70,整个测验的估计,整个测验的估计信度是多少?信度是多少?l rxx=20.7/(1+0.7)=0.8246Measurement Reliability4.分半信度的校正公式之二分半信度的校正公式之二47Measurement Reliability4.分半信度的校正公式之三分半信度的校正公式之三l Rulon公式中分子方差反映了由于题目不同等条件带公式中分子方差反映了由于题目不同等条件带来的误差方差,他与总方差之比反映了误差方差在总来的误差方差,他与总方差之比反映了误差方差在总

41、方差中所占的比例。方差中所占的比例。48Measurement Reliability5.分半的方法分半的方法l 1)按题目序号分半,分奇数题和偶数题)按题目序号分半,分奇数题和偶数题l 2)按题目难度分半)按题目难度分半l 3)按题目的内容分半。)按题目的内容分半。l 如遇到有牵连的项目或一组解决同一问题的项目时,这如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则会高估信度的值。些项目应放在同一半,否则会高估信度的值。49Measurement Reliability6.适用的前提条件适用的前提条件l 1)通常在只能施测一次或没有复本的情况下使用。)通常在只能施测一次

42、或没有复本的情况下使用。l 2)斯皮尔曼布朗公式时要求全体被试在两半测验上)斯皮尔曼布朗公式时要求全体被试在两半测验上得分的变异数(方差)要相等。得分的变异数(方差)要相等。l 3)实践中对测验分半时,为了尽量减少无关因素的影)实践中对测验分半时,为了尽量减少无关因素的影响,通常需要考虑题型、题分、题目测试先后顺序等因响,通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题。素的平衡问题。50Measurement Reliabilityl 4)当一个测验无法分成对等的两半时,分半信度不宜)当一个测验无法分成对等的两半时,分半信度不宜使用。使用。速度测验也不宜采用分半法。因为速度测验中试速

43、度测验也不宜采用分半法。因为速度测验中试题的难度低,被试得分的多少主要是看答题的多少,分题的难度低,被试得分的多少主要是看答题的多少,分半法易使得分相同,从而夸大分半法的信度估计。半法易使得分相同,从而夸大分半法的信度估计。l 5)同一测验通常会有多个分半信度,同一测验通常会有多个分半信度,提供分半信度值提供分半信度值时,要说明分半的方法。(时,要说明分半的方法。(2020个题目的测验可得到个题目的测验可得到92,37892,378分半信度!)分半信度!)51Measurement Reliabilityl 例:有一个由例:有一个由100100题构成的量表施测于题构成的量表施测于1010个高三

44、学生。测个高三学生。测验一次后,应试者即毕业离校。现在怎样评价测验结果的验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?信度?l(1 1)计算出每个应试者的奇数题总分()计算出每个应试者的奇数题总分(X X1 1)和偶数题总分)和偶数题总分(X X2 2),见表。),见表。得得分分被被 试试1 12 23 34 45 56 67 78 89 91010X X1 1 3838373738384141404036363838393940403535X X2 2373737373636393939393434383839393939363652Measurement Reliabilityl

45、 分半法实际上是对测验内部一致性的一个粗略估计。但分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测验分半的方法是很多的,而且用不同的分对于同一个测验分半的方法是很多的,而且用不同的分半方法求出的分半信度都不一样,因此分半信度不是最半方法求出的分半信度都不一样,因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足,可以好的内部一致性的估计。为了弥补分半法的不足,可以采用其它的方法。采用其它的方法。53Measurement Reliability(二)同质性信度(二)同质性信度(Homogeneity reliability)l 1.含义:同质性指测验的所有题目测量的是同一种

46、心含义:同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强(越高则同质性越强(是正相关还是负相关?相关为零则是正相关还是负相关?相关为零则表明了什么?表明了什么?)。)。l 同质性信度就是一个测验所测内容或特质的相同程度。同质性信度就是一个测验所测内容或特质的相同程度。l 即:即:题目之间的一致性程度题目之间的一致性程度l 2.同质性信度的计算公式和校正公式同质性信度的计算公式和校正公式l 估计所有可能的分半信度系数的平均数,作为完整测验估计所有可能的分半信度系数的平均数,作为完整测验的内部一致

47、性最佳估计值。的内部一致性最佳估计值。54Measurement Reliability2.同质性信度计算方法同质性信度计算方法l 0、1记分的同质性信度记分的同质性信度55Measurement Reliability2.同质性信度计算方法同质性信度计算方法l非非0、1记分的同质性信度记分的同质性信度21211tkiisskk公式中,公式中,k k是测验题目个数,是测验题目个数,S S2 2i i是被试在题目是被试在题目i i上得分的方上得分的方差,差,S S2 2t t是被试测验总分方差。是被试测验总分方差。l 克龙巴赫a系数56Measurement Reliabilityl a值的计算

48、步骤:值的计算步骤:P52注意:注意:l a值是所有的分半信度的平均值值是所有的分半信度的平均值l a值只是测量信度的下界的一个估计值。即值只是测量信度的下界的一个估计值。即a值大,测值大,测量信度必定高;但量信度必定高;但a值小时,却不能断定测量信度不高。值小时,却不能断定测量信度不高。57Measurement Reliability3.同质性信度的解释同质性信度的解释l 同质性信度高,说明测验主要测的是某一单个心理特质,同质性信度高,说明测验主要测的是某一单个心理特质,实测结果就是该特质水平的反映;实测结果就是该特质水平的反映;l 同质性信度低,说明测验结果可能是几种特质的综合反同质性信

49、度低,说明测验结果可能是几种特质的综合反映。映。具体如何解释?具体如何解释?测量单一特质与同质性信度的关系?测量单一特质与同质性信度的关系?58Measurement Reliability四、评分者信度(四、评分者信度(Scorer Reliability)1.含义:含义:是指两个或多个评分者给同一批人的答卷进行评分的一是指两个或多个评分者给同一批人的答卷进行评分的一致性程度。致性程度。2.估计方法:估计方法:l 两个评判者的评分信度:随机抽取若干份答卷,由两两个评判者的评分信度:随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相个独立的评分者打分,再求每份答卷两个评判

50、分数的相关系数(积差相关或等级相关)。关系数(积差相关或等级相关)。l 多个评判者的评分信度:用肯德尔和谐系数来估计多个评判者的评分信度:用肯德尔和谐系数来估计59Measurement Reliabilityl 评分者信度的计算:评分者信度的计算:l 1.1.评分者为两个人时评分者为两个人时l 若是连续变量的评分,且分布是正态则计算皮尔逊积差若是连续变量的评分,且分布是正态则计算皮尔逊积差相关系数(可用计算机直接计算)。相关系数(可用计算机直接计算)。l A A 、B B分别为两个评判者在同一道题上所给的分数,分别为两个评判者在同一道题上所给的分数,A A 、B B分别为两个评判者所评分数的

51、标准差,分别为两个评判者所评分数的标准差,r rxxxx为为评分者信度评分者信度60Measurement Reliabilityl 若是等级评定或虽是等距或等比的数据但分布非正态,若是等级评定或虽是等距或等比的数据但分布非正态,则计算斯皮尔曼等级相关。则计算斯皮尔曼等级相关。l 斯皮尔曼等级相关公式:斯皮尔曼等级相关公式:l (公式(公式512)l 式中式中D为各对偶等级之差,为各对偶等级之差,是各是各D平方之和,平方之和,N为等级为等级数目。数目。)1(6122NNDrR2D61Measurement Reliabilityl当有相同的等级出现时,计算斯皮尔曼等级相关的公式为:当有相同的等

52、级出现时,计算斯皮尔曼等级相关的公式为:l (公式513)l ,;l ,l式中,式中,N N为成对数据数目,为成对数据数目,n n为相等等级数目。为相等等级数目。222222yxDyxrRCxCNNx123212)1(2nnCxyCNNy123212)1(2nnCy62Measurement Reliabilityl 例例7 7:甲乙两位教师评阅:甲乙两位教师评阅1010份试卷,他们对每一试卷份试卷,他们对每一试卷各自所评的分数列入下表,问这两位教师评分的一致各自所评的分数列入下表,问这两位教师评分的一致性如何?性如何?l 两位教师对两位教师对1010份试卷的评分份试卷的评分试卷试卷得分得分名

53、次名次甲评分甲评分乙评分乙评分甲评分甲评分乙评分乙评分A A94949393B B90909292C C86869292D D86867070E E72728282F F70707676G G68686565H H66667676I I64646868J J6161606064Measurement Reliabilityl 2.2.评分者为多个时评分者为多个时l 采用肯德尔和谐系数(采用肯德尔和谐系数(Kendall coefficient of Kendall coefficient of concordanceconcordance)来估计信度系数)来估计信度系数 (公式(公式5 514

54、14)l 式中,式中,W W为和谐系数,为和谐系数,K K为评分者人数,为评分者人数,N N为被评对象为被评对象数,数,R Ri i为每一对象被评的等级之和。为每一对象被评的等级之和。NNKNRRWii322212165Measurement Reliabilityl 出现相同等级时采用下面的公式:出现相同等级时采用下面的公式:l (公式(公式5 51515)l 式中,式中,W W为和谐系数,为和谐系数,K K为评分者人数,为评分者人数,N N为被评对象为被评对象数,数,R Ri i为每一对象被评的等级之和,为每一对象被评的等级之和,n n为相同等级数为相同等级数目。目。TKNNKNRRWii

55、)(1213222123nnT66Measurement Reliabilityl 例例8 8:六位教师各自评阅相同的五篇作文,每位教师:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评了等级(共五等),并列入下表给每一篇作文都评了等级(共五等),并列入下表5 57 7。求六位老师所评等级的一致性程度。求六位老师所评等级的一致性程度。评分者评分者K K6 6试卷编号(试卷编号(N=5N=5)1 12 23 34 45 5A A3 35 52 24 41 1B B3 35 52 24 41 1C C3 34 41 15 52 2D D3 35 51 14 42 2E E3 35 52 2

56、4 41 1F F3 35 52 24 41 1R Ri iR Ri i2 268Measurement Reliabilityl 例9:三位教师评阅四份试卷,所评等级列入下表58。他们所评的等级的一致性程度怎样?评卷教师评卷教师K K3 3作文编号(作文编号(N N4 4)1 12 23 34 4张张3 31 14 42 2王王2 21 14 41 1李李2 22 23 32 2R Ri i69Measurement Reliabilityl 再测信度:估计测验中跨时间的一致性再测信度:估计测验中跨时间的一致性l 复本信度:估计测验跨形式(题目)的一致性复本信度:估计测验跨形式(题目)的一致

57、性l 等值稳定性系数:估计测验跨时间和形式的一致性等值稳定性系数:估计测验跨时间和形式的一致性l 内部一致性系数:估计测验跨项目或两个分半测验之间内部一致性系数:估计测验跨项目或两个分半测验之间的一致性的一致性l 评分者信度:估计测验跨评分者的一致性评分者信度:估计测验跨评分者的一致性l 各种方法具有不同的意义,每一种信度系数不能代替其各种方法具有不同的意义,每一种信度系数不能代替其他的信度系数,所以编制或使用测验时,应该尽可能收他的信度系数,所以编制或使用测验时,应该尽可能收集各种信度证据。集各种信度证据。五、信度系数及其估计方法小结70Measurement Reliability1.1.

58、测试次数和测试卷份数与信度系数估计方法测试次数和测试卷份数与信度系数估计方法测试测试次数次数测试卷份数测试卷份数 1份份 2份份 1次次 分半信度分半信度Kuder-Richardson信度信度Alpha系数系数 复本信度(同时测试)复本信度(同时测试)2次次 重测信度重测信度 复本信度(延时测试)复本信度(延时测试)71Measurement Reliability2.2.各种信度估计方法的误差方差来源各种信度估计方法的误差方差来源信度估计方法信度估计方法误差来源误差来源重测信度重测信度复本信度(同时测试)复本信度(同时测试)复本信度(延时测试)复本信度(延时测试)分半信度分半信度Kuder

59、-Richardson 和和Alpha系系数数评分者信度评分者信度 时间间隔时间间隔题目内容题目内容时间间隔与题目内容时间间隔与题目内容题目内容题目内容题目内容与心理行为特质的同质题目内容与心理行为特质的同质性性评分者间差异评分者间差异 72Measurement Reliability第三节第三节 影响信度的因素及提高信度的方法影响信度的因素及提高信度的方法一、影响信度的因素一、影响信度的因素(一)样本特征(一)样本特征 l 1.样本团体异质性的影响样本团体异质性的影响 l 信度系数就是相关系数,任何相关系数都要受到团体中分数信度系数就是相关系数,任何相关系数都要受到团体中分数分布范围的影响

60、。而分数分布范围与样本团体的异质程度有分布范围的影响。而分数分布范围与样本团体的异质程度有关。关。一个团体越异质,其分数范围越大,信度系数也就越高。相一个团体越异质,其分数范围越大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。如图所示反,相对同质的团体分数则较为均匀。如图所示:73Measurement Reliabilityl 图中大方框显示的是一个较大的异质团体在两次施图中大方框显示的是一个较大的异质团体在两次施测中的分数分布测中的分数分布,显然有很高的正相关显然有很高的正相关.在小方框中显在小方框中显示的是一个高度同质的亚团体示的是一个高度同质的亚团体,两次分数几乎呈随机变两次

61、分数几乎呈随机变化化,相关接近于零相关接近于零.74Measurement Reliabilityl 取样团体异质程度高,被试差异较大,两次取样团体异质程度高,被试差异较大,两次测验高者得分高,低者得分低,分数相关系数测验高者得分高,低者得分低,分数相关系数就高,信度较高,所以会高估测验的信度。就高,信度较高,所以会高估测验的信度。l 取样团体异质程度低,被试差异不大,两次取样团体异质程度低,被试差异不大,两次测验,第一次高者第二次可能低,低者可能高,测验,第一次高者第二次可能低,低者可能高,分数相关系数低,信度就低,所以会低估测验分数相关系数低,信度就低,所以会低估测验的信度。的信度。75M

62、easurement Reliabilityl 2.样本团体平均能力水平的影响样本团体平均能力水平的影响 l 测验的信度不仅受团体中个别差异程度的影响,也受不测验的信度不仅受团体中个别差异程度的影响,也受不同团体间平均能力水平的影响。同团体间平均能力水平的影响。l 因为对于不同团体,题目具有不同难度,每个题目在难因为对于不同团体,题目具有不同难度,每个题目在难度上的细微差异累计起来就会影响信度。例如,同一套度上的细微差异累计起来就会影响信度。例如,同一套智力测验,年幼者不会的题目多,靠猜测答题,分数的智力测验,年幼者不会的题目多,靠猜测答题,分数的偶然性比较大,信度就差。而大学生完成的准确性就

63、高,偶然性比较大,信度就差。而大学生完成的准确性就高,信度也就高。信度也就高。l 这种题目难度上的差异很难用统计来预测和估计,只能这种题目难度上的差异很难用统计来预测和估计,只能靠经验发现。靠经验发现。l 因此,编制测验应该把常模按照各种标准分成更为同质因此,编制测验应该把常模按照各种标准分成更为同质的亚团体,分别报告信度系数。的亚团体,分别报告信度系数。76Measurement Reliability(二)测验长度(二)测验长度(测验的数量)(测验的数量)l 1.测验越长,测题取样或内容取样越有代表性测验越长,测题取样或内容取样越有代表性 l 2.测验越长,被试的猜测因素影响就越小。(一道

64、题测验越长,被试的猜测因素影响就越小。(一道题可以猜对,可以猜对,100个题都猜对就不可能)个题都猜对就不可能)l 但也不能太长,被试过分疲劳和反感,也会影响信度。但也不能太长,被试过分疲劳和反感,也会影响信度。l 增加多长合适呢?增加多长合适呢?斯皮尔曼布朗公式:斯皮尔曼布朗公式:K=rkk(1-rxx)/rxx(1-rkk)K为改变后的长度与原来长度的比。为改变后的长度与原来长度的比。rxx原来测验的信原来测验的信度,度,rkk为改变后信度的估计为改变后信度的估计77Measurement Reliability一般来说,题目数量对相关系数的影响是递增的。如一般来说,题目数量对相关系数的影

65、响是递增的。如表所示表所示题目数量相关系数10 50 100 200 300 400 5000.50 0.83 0.91 0.95 0.968 0.976 0.98078Measurement Reliabilityl 但是,增加测验长度的效果遵循报酬递减率,测验过长但是,增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的,可以通过上式确定一个测验究竟要增长是得不偿失的,可以通过上式确定一个测验究竟要增长多少才能达到理想的信度水平。多少才能达到理想的信度水平。79Measurement Reliabilityl 例如,信度为例如,信度为0.8有有40个题目的测验,要提高信度到个题目的测验,

66、要提高信度到0.90,需要增加多少题目?,需要增加多少题目?l K=0.9(1-0.80)/0.80(1-0.90)=2.25 2.2540=90,要增加要增加50道题道题1.1.假设有一份由假设有一份由2020题组成的测验,题组成的测验,rxx=0.50rxx=0.50,若测验增加,若测验增加同质性题目同质性题目8080道,则增长后的测验信度道,则增长后的测验信度rxxrxx是多少?是多少?2.2.假设有一个包括假设有一个包括 1010个题目的测验,信度为个题目的测验,信度为0.600.60,若把测,若把测验增加到验增加到8080个题目,其信度将增加到多少?个题目,其信度将增加到多少?3.3.一个包含一个包含5050个题目的测验信度为个题目的测验信度为0.750.75,欲将信度提高到,欲将信度提高到0.900.90,需要增加多少题目?,需要增加多少题目?80Measurement Reliability(三)测验题目的同质性(三)测验题目的同质性l 如果一个测验内部的试题之间彼此异质,则无法使测量如果一个测验内部的试题之间彼此异质,则无法使测量的内部一致性系数提高。的内部一致性系数提

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!