潜在类别模型在试题分析中的应用

上传人：z**** 文档编号：114308825 上传时间：2022-06-28 格式：DOC 页数：16 大小：250KB

收藏版权申诉举报下载

第1页 / 共16页

第2页 / 共16页

第3页 / 共16页

本资源只提供3页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

20 积分

下载资源

资源描述：

《潜在类别模型在试题分析中的应用》由会员分享，可在线阅读，更多相关《潜在类别模型在试题分析中的应用（16页珍藏版）》请在装配图网上搜索。

1、潜在类别模型在试题分析中的应用二级计分题目的区分度和信度分析焦璨 1,2 张洁婷2 高艳红 2 张敏强2（1 深圳深圳大学心理学系，深圳 518000）（2 华南师范大学应用心理研究中心，广州 510631）摘要：基于潜在类别分析的信度分析通过潜在类别模型的5个指标：P指标、P指标、屮指标、QQ指标、尤指标来分析试题的区分度和信度，该方法假设所测群体是由不同的亚群体组成，并且不需要潜在变量和残差服从正态分布，可以克服传统的信度评价方法的一些不足。本研究在简要介绍潜在类别分析的基本原理、分析思路的基础上，以二级计分题项的量表为例，重点介绍如何运用上述 5 个指标判别题项质量，并用实际数据验

2、证此方法的可行性，最后将潜在类别分析结果和传统的基于 CTT 理论的信度分析结果进行对比，阐述潜在类别分析在心理与教育统计中的应用价值及研究拓展。基于分析结果，可得到如下结论：（1）条件概率之差、V指标和Q指标对题目的区分度评价结果与传统的区分度基本一致，於指标与传统的Q系数所得出的信度评价结果则有所不同。（2）基于潜在类别模型的试题分析方法可较为全面地评价和鉴别每道题目和题目整体的优劣，并且能考虑样本的子分布，而其判断标准还有待研究。关键词：潜在类别模型，二级计分，题目，指标，区分度，信度1 前言在平常的教育研究考试中，我们通常使用难度、区分度和信度a系数来鉴别试卷的质量，并根

3、据相应的结果来删减题目，提高问卷的可靠性和有效性。然而，若在多峰分布下传统难度、区分度指标往往难以客观评价难度和区分度；运用a系数进行信度分析的假设条件是样本为单一分布的群体，并要求潜在变量和残差都要符合正态分布，这些假设在现实研究中往往得不到满足（Flaherty， 2002）。潜在类别模型这种数据处理方法则克服了传统分析方法中的不足，它对潜在变量和残差的分布没有任何要求，并假设所测群体是由不同的亚群体组成。潜在类别分析（Latent Class Analysis）是由社会学家Lazarsfeld在1950年首次提出的，用于分析态度量表中潜在变量的一种方法（Lazarsfeld &

4、Henry, 1986）。在20世纪70年代，Goodman发展了极大似然估计法，并应用于潜在类别模型中，使得潜在类别模型从分析二级计分试题扩展到称名变量(Goodman, 1974)。如今，潜在类别模型已经越来越广泛地应用于社会研究，一方面，它可以对外显分类变量进行分类，找出其内在的潜在结构；另一方面，它可以测量称名和顺序变量的测量误差问题(Vermunt，2002)。现阶段，基于潜在类别模型的应用，国外学者已作了广泛的研究。例如, Biemer和Wiesen(2002)运用潜在类别模型，通过三个题目把吸食大麻的被试分类，并指出不能有效区分被试潜在结构的题目。Kreuter， Y

5、an和Tourangeau(2008)也运用潜在类别模型来分析马里兰州大学毕业生的数据，并结合Hui-Walter模型来鉴别题目。Flaherty(2002)为调查青少年吸烟情况，引用Clogg和Manning(1996)所提出的5个基于潜在类别模型的指标，对问卷题目进行分析，指出区分度较差的题目。然而，国内外学者对基于潜在类别模型的量表分析研究仅限于对社会调查问卷的题目，而对考试题目的研究颇少。本文将介绍潜在类别模型的基本原理、基于该模型对题目质量进行判断的指标，并以实证数据为例，如何运用这些指标来鉴别考试试题的优劣，比较这些方法与传统方法的实用性。2 潜在类别模型的基本原理2.

6、1 潜在类别分析假设与模型潜在类别模型最突破性的原理就是将类别变量的概率转化为参数模型，亦即概率参数化。传统的潜在类别模型涉及两种类别变量：可观察、测量的外显变量与不可观察的潜在变量，其对应的参数分别是潜在类别概率(latent class probabilities)与条件概率(conditional probilities)。一般使用极大似然法来估计潜在类别模型的这些参数。潜在类别模型基于两个假设。其一是局部独立性假设，即外显变量之间的关联能够被一个潜在变量来解释，使得这两个变量完全独立无关。即，对于某个潜在类别的被试来说，各个外显变量的作答不存在关联。潜在类别的互斥性是另一个

7、假设，即潜在类别之间相互独立，互不影响。假设W = (W , WW )表示一系列p个外显变量，d = (d , d d )表示在外显变量W中12p12p反应选项的数目，让w = (w , w w )表示某一个的反应组合。潜在变量L中有C个潜在类别，12pP(W = w) = k代表反应组合w的反应概率。潜在类别模型写作：wP (W = w)=冗=为 yHp (i)( 1)w cwi|cc=1i=1i其中，丫 = P(L = c)为潜在类别概率，表示各个潜在类别所占的人数比例；p(i)表示属于潜在cwi| c类别c的被试，在题目W的反应为w的条件概率。其中潜在类别概率丫和条件概率p的取值范围是

8、ii01。2.2 潜在类别模型的建立潜在类别模型的建立首先需要估计初始模型，然后逐步增加潜在类别的数目，进行各模型的参数估计，计算适配性，同时进行适配性检验，以决定最佳模型。值得注意的是，正确选择潜在类别的数量是至关重要的(Ymg, 2004)。我们通常使用Schwarz(1978)基于贝氏理论所提出的BIC指标(Bayesian information criterion)，来选择潜在类别模型，当BIC值越小，其模型的适配性就越好。然后是对各潜在类别进行命名，观测条件概率和归属概率，最后计算出判别指标。2.3 分析原理Clogg和Manning(1996)第一次运用潜在类别模型来分析

9、量表的可靠性，其思路是：如果一个题目是反映这个潜在类别的有效指标，那么这个题目应该会使此潜在类别的被试都作出一致的反应。若这种潜在类别的被试在这个项目上不能作出一致的反应，则该题目对于区分此类别的被试就是无效的。Clogg和Manning (1996)指出两种类型的可靠性指标：特定项目的可靠性(item-specific reliability)和试题整体的可靠性(item-set reliability)。通过潜在类别模型的5个指标：p指标，P指标，W指标，Q指标和於指标来分析单个题目的区分度、信度以及量表的整体信度。2.3.1 特定项目的可靠性指标所谓特定项目的可靠性，主要是从题

10、目的鉴别能力、潜在类别与外显变量的关联大小、可靠性来分析每道题目的质量，具体指标有p指标、P指标、W指标和Q指标。指标P，即该题目的条件概率，根据条件概率在各个选项分布的均衡性来判断被试的反应倾向是否明确：当参数估计的条件概率P等于或接近1时，这一潜在群体对该题目就有明确的作答倾向，或者，当参数估计的条件概率P等于或接近0时，就代表该潜在类别的被试几乎都不具有此行为特征。这两种情况下都表明此题目可以反映出该潜在群体的特征(Flaherty，2002)。此时，该题目对于此潜在类别的被试是有效的。相反，当条件概率P等于或接近作答选项的随机分布概率，即dj( d 为选项数目)时，此题目就无

11、法反映这一潜在群体的特征。j第二个指标P，表示某题某水平的选项对于各个潜类别的归属概率，也可看做正确归类的概率说明该题目某选项对各个潜在类别的区分能力。某一个题目选项在某个类别的P值很高，则说明正确归类的概率高，该选项能区分该类别与其他类别；反之，当P值在各个潜类别相差很小，即呈平均分布，无法根据这道题目该选项对各潜在类别的鉴别度都不理想。用公式表示为：八八P (L = c I W = w ) =iiLIW = wii2）Y Pcw IL ci八tW = wii指标 P 和指标 P 是分别从类别和题项的角度鉴别题目的优劣，可以全面地了解题目的好坏。第三个指标为V，它可以计算一对潜在类别与某

12、道题目的两个选项之间的关联。当V接近1 时，这对潜在类别和这道题目之间关联很小，相反，当V越大于1时，这对潜在类别和这道题目之间的关联越大，即这道题目的两个选项可以区分出这两类群体。在潜在类别数目较多的时候，一般计算差异较大的两个潜在类别。公式为：(P)P3）V =w厂1 L - 1w-一i2(P)P(w = 2 LI = 1 w = L1= Iii在公式（3）中，（p）和（p）表示两种类别被试做出相应的一致性反应的概率，而w =1IL =1w =2I L = 2ii（P ）和（P）表示两种类别被试做出与各自类别群体不一致性反应的概率。w = 2I L =1w =1I L = 2ii第四个

13、指标尤尔关联系数Q是由第三个指标V转化而来，即4），也是反映被试能力与题目的关联性。2.3.2 试题整体的可靠性指标第五个指标是T，是某一作答向量的归属概率，它反映了整个量表题目的可靠性程度，当某个指标t很高时，表明该作答组合属于某类人的概率高，这与指标p有相似之处，但p只针对某题的某一选项水平，而T则针对整组题目的作答组合。当某作答组合的潜类别T大于0.8，则说明该量表该作答组合信度较好，能将该潜在类别与其他类别区分开来（Flasherty, 2002）。其公式为：八t代=L = c，W = w（5）L=cIW=wtW=w3 实证研究3.1 数据收集与分析工具选取某专业统考中的 12道

14、二级计分题目，考生共2931人。无缺失数据。答对计分为“1”，答错记为“0”。使用 SPSS16.0 和 LatentGOLD4.0 软件分析数据。3.2 潜在类别模型的确定表 1 探索性潜在类别分析模型适配指标摘要表模型参数自由度LLBICP值1122919-20328407520.002252906-18780377610.263382893-18713377300.834512880-18694377950.905642867-18681378720.93表1列出了从C=1到C=5五种不同类别数目的模型适配估计结果，其中可以看出，C=3模型有最低的BIC值（37730）,即模型3是最

15、佳的模型。表2列出了潜在类别的概率值，表示三个潜在类别所占的比重。结合表2和图1可知，属于潜在类别 1 的考生，其作答选项几乎都答对，可推测这部分考生对知识点的掌握良好，可命名为“高分组” ，占了总人数的一半。属于潜在类别2的考生，约占总体人数的30%，其作答选项的答对率处于中等水平，可命名为“中等组”。第3类考生，其作答选项的答对率很低，可推测这部分考生对知识点的掌握较差，可命名为“低分组”。表 2 探索性潜在类别模型的潜在类别概率潜在类别123潜在类别概率0.520.290.19如表3和图1，对于高分组的考生，即“高分组”来说，除了第4和第12道题目答对率较低外，其余题目的答对率

16、都较高，而且所有题目的答对率都高于其它类别的考生。对于潜在类别 2 的考生，即“中等组”来说，第3、6、和11 题有较高的答对率，而考生在第4 题的答对率较低，其余8 个题目的答对率接近0.5。对于成绩较差的考生来说，第2、3、6、7和11题的答对率达0.4或以上，其余题目的答对率则低于 0.4。表312个题目在三个潜在类别上的答对率及传统难度系数T1T2T3T4T5T6T7T8T9T10T11T12类别10.920.750.970.380.880.960.860.860.940.880.960.27类别20.560.600.840.290.630.850.620.630.600.530

17、.750.40类别 30.220.400.500.120.220.520.560.290.290.360.420.34传统难度系数0.680.640.840.300.680.850.730.690.720.680.800.3200800403斗8g10110. 0Cluster 1Cluster2C!uster3图 1 三个潜在类别分类的条件概率分布平面图3.3 试题的项目与信度分析3.3.1 项目分析对于知识掌握的明确程度，根据Flaherty的指标，除了题4和题12,其他题目对高分组的考生都能明确反映高分组考生掌握了相应的知识点；题 1、4、5、8、9能明确反映低分组考生没有掌握相应的知

18、识点，而其余试题则无法反映该类考生的掌握情况；题3、6、11明确反映中等组考生较好地掌握了这些知识点，而其他题的答对率接近0.5，则没有明确反映考生的掌握情况。对于条件概率，我们更应该关注的是题目在各能力层次考生的答对率之差。如表 3可知，三类考生在第1、5、 8、9 和 10 题的答对率差距明显，即高分组答对率较高，中等组的答对率一般，而低分组的答对率较低，因此这些题目对于考试来说是恰当的，有较好的区分度。其次，第2、3、6、7和11题的答对率都相对较高，也就是说，这些题目对于所有考生来说都比较简单，但仍有一定地区分度。值得注意的是，第3题和第12题。对于所有考生来说，第三题的答对

19、率都很低，即便是高分组也不超过 0.4，因此，这道题对考生来说比较难，试题分析时应予以注意。第12题的答对率也很低，并且高分组的考生的答对率低于中等组和低分组，可知这道题目的区分度很差，其鉴别力是负向的。即不能对三种类别的考生进行区分，高分组不能答对，低分组也可能只凭猜测来回答，建议修改或删除此题。表4 12个题目在三个潜在类别上的归属概率题目选项咼分组中等组低分组T100.1390.4040.45810.7000.2390.060T200.3660.3260.30810.6100.2720.118T300.1080.2940.59810.5980.2910.110T400.4660.298

20、0.23610.6500.2770.072T500.1970.3430.46010.6730.2670.059T600.1240.2880.58810.5930.2920.114T700.2760.4170.30810.6120.2460.142T800.2360.3420.42110.6530.2680.079T900.1150.4150.46910.6830.2420.074T1000.1900.4320.37810.6760.2260.098T1100.1010.3630.53510.6290.2730.098T1200.5620.2570.18110.4370.3650.198根据P指

21、标，表4列出了三个潜在类别在每道题目中的归属概率。例如，在第1道题目答对的情况下，考生被归为类别 1 的概率为 0.70，有明确的归属倾向，而在第 1 题答错的情况下，中等组和低分组的归属概率几乎接近相同，分别为0.40和0.46，这就表示若考生在第1题答错，其被归为类别 2 和类别 3 的概率相近，即无法区分两者，而归属于类别 1 的概率很小，这也反映了可明确排除类别1的可能性。再如，在第3题答对的情况下，其被归为类别1的概率为0.60，远大于被归属在类别 2和3 的概率；在题目 3答错的情况下， 3种潜类别的考生的归属概率分别为 0.11， 0.29， 0.60，这两种情况说明题

22、 3 能够较好地区分三种类别的考生。题 4 和题 12 无论在考试答对还是答错，高分组的归属概率都明显高于其他类别。尤其在题 12中，当答错时，归属于高分组的概率还比当答对时归属于高分组的概率要高，这说明该题目的区分能力差，应予以删除或修改。其余题目在答对的情况下都有较好的区分度，但在答错的情况下，只有题 3、6、11 能较有效地将低分组与其他组相区别，其他题目则难以区分中等组和低分组。根据甲指标，我们以高分组和低分组之间的差异与题目1的关联为例，如表5。根据甲指标可得，V = (0.915x0.78) /(0.085x0.22) -38，说明高分组的考生在第1题的答对率是低分组的考生的3

23、8 倍。将V转化为Q指标值(38-1 / 38+1) =0.95，这都反映了题目1可以有效地区分出高分考生和低分考生。而中等组和低分组的考生在第2道题目上的羽值为2.25，而q指标值为0.38，说明题2不能很好地鉴别中等组和低分组的考生。同理，表6列出了3个潜在类别的考生与所有题目的关联程度甲和Q。如表6可知，高分组和低分组的考生大多能够被有效地区分出来，而中等组和低分组之间或高分组和中等组之间，这12道题目的区分能力则大大减弱，总体来说，题2、题4、题7在各类别之间的区分能力较小，而题12不能区分任何类别间的差异，甚至是反向的结果，即高分组的考生的答对率比中等组及低分组的答对率更

24、低，此题需要删除或修改。表 5 3 种潜在类别的考生在题目 1 、 2 中的条件概率潜在类别选项T1T2高分组00.0850.25310.9150.747中等组00.4400.40410.5600.596低分组00.7800.59610.2200.404表6考生能力水平与12道题目的关联以及传统区分度潜在类别T1 T2 T3 T4 T5 T6 T7 T8 T9 T10T11T12高 VS 中中 VS 低高 VS 低传统区分度Q帖Q帖Q鉴别指数法相关法8.5 20.79 0.334.5 2.80.64 0.4738.5 4.350.95 0.630.690.50.6 0.415.61.50.70

25、0.205.330.680.5030.24.50.940.640.410.390.50.354.4 4.70.63 0.6565.20.710.6826.6 24.50.93 0.920.68 0.380.58 0.493.8 3.50.58 0.561.27 4.170.12 0.614.8 14.70.66 0.870.43 0.590.40.5310.16.80.82 0.743.6820.57 0.3337.2 13.80.95 0.860.64 0.590.59 0.528.20.50.78-0.334.11.30.610.13340.70.94-0.180.510.150.530.

26、12试题整体的信度分析（基于尤指标）表 7 列出了部分作答组合的归属概率。例如，属于类别 1 的考生，其中 3 个作答组合的归属概率分别为 0.82、0.99 和 0.97，分类的准确性较高；但在“001010011000”作答模式中，考生归属到类别3的概率仅为0.54，归属到中等组中的概率为 0.46，说明此作答组合无法明确其类别的归属，反映了这 12 道题目对这种作答组合的测量信度不佳，这种情况需要从测验内容上进一步分析原因。表7潜在类别模型的归属概率归属类别T1T2T3T4T5T6T7T8T9T10T11T12类别1类别2类别330000000000010.000.0010030

27、000000000100.000.010.9930010100110000.000.460.5420010100110100.020.760.2220010100111010.010.690.3111111111111010.820.180.0011111111111100.990.010.0011111111111110.970.030.0012 个题目共有 4096 种作答组合，其中本研究只出现1061 种作答组合，其中属于高分组的考生，共有 163 种作答组合，其平均归属概率为 0.98，接近于 1；而属于中等组的考生，其平均归属概率为 0.72 ，共有 519 种作答组合，其中有

28、364 种作答组合的归属概率在 0.49-0.79 之间，其余作答组合在0.8以上，大部分f指标相对不够理想：而属于低分组的考生，其平均归属概率为0.81，共有377 种作答组合，其中有154种作答组合的归属概率在之间，其余组合的归属概率在0.8以上，尤指标稍微优于中等组。总的来说，这12道考试题目，对于类别2的考生，也就是中等组的考生来说，其正确归属的概率相对较低，而对于类别1的考生来说，这12道题目可以很好地鉴别考生的能力水平类别。3.4 试题分析总结对考生进行分类。潜在类别分析得出3个潜在类别，即“高分组”、“中等组”和“高分组”。高分组的考生大约占了总体考生人数的一半，其作

29、答选项几乎都答对。属于中等组的考生，约占总体人数的30%，其作答选项的答对率处于中等水平。低分组在各个题目的答对率普遍很低。总体来说，这12道题可以有效地把考生分为3种不同能力水平的潜在类别。根据0指标，大部分题目能明确反映高分组考生掌握相应的知识点；而大部分题目在中等组的答对率接近 0.5，无法明确反映其对相应的知识点的掌握情况；部分试题可以反映低分组未掌握的知识点。根据各类别考生的答对率之差可知，题 4 和题12对各类考生的区分度不理想，尤其是题12，需要修改或删除。根据P指标，题4和12区分度不理想；在答对的情况下，大部分题目都能区分高分组与其他类别的考生；在答错的情况下，只

30、有题 3、6、11 能较有效地将低分组与其他组相区分。根据指标和qQ指标，大部分题目能区分高分组和低分组的考生，而对于中等组和低分组之间、高分组和中等组之间的区分能力则明显下降。题2、题4、题7在各类别之间的区分能力较小；而题 12不能区分任何类别间的差异，甚至是反向的结果，需要修改或删除。以上几个项目分析的指标都发现题4和题12未能区分考生的能力水平，甚至无法正确反映考生的能力水平，需要予以修改或删除。而指标和qQ指标还发现题2和7不够理想。这些指标都发现试题能够较好地区分高分组和低分组，而对于相邻类别之间的能力往往难以区分，这也反映了考生能力水平从高到低的渐进性和连续性。根据力指标

31、我们可以得出，这12道题目可以有效地区分出高分组的考生，而对于中等组和低分组的考生，还是有不少组合的正确归类概率介于 0.49-0.79 之间，尤其是中等组。4 试题分析方法的比较对于上述实例，用经典测量理论计算区分度，发现区分度在0.4以下的题目分别为第4题（0.39）、第6题（0.38）和第12题（0.15）；其中第12题的区分度极差，不能有效地区分考生。这与基于潜在类别模型的区分度评价结果一致。基于潜在类别分析的试题分析方法，能够针对不同类别或答对、答错的情况分别进行区分度的分析。基于潜在类别模型的试题分析，整体的思路都是针对不同的能力分类分别进行项目分析。其中，各个类别的答对

32、条件概率相当于题目对于不同类别的难度系数，从表3可知，各个题目的难度系数因其类别而有所不同，而传统的难度系数则是单一的，并且多接近或略高于中等水平的考生，也就是传统的难度系数仅能反映中等水平的考生群体下的难度，对于其他群体的难度并不敏感。条件p指标是基于条件概率来分析题目能否明确反映考生在相应知识点的掌握情况，但是常模考试的试题分析中发挥的作用和意义相对较小。对于考试的实际情况，中等的考生对于知识点的掌握一般，其答对的概率接近0.5 也是理所当然的。再从试题难度分析角度来看，当难度接近0.5时，题目适中则更适合于该群体的能力水平。由于考生对知识的掌握程度常常难以简单分为掌握和未掌握

33、，尤其对于中等水平的考生。因此，指标0应用于常模考试的分析则存在某种不切实际，而且意义不大。相比之下，题目的区分度、难度等更为重要。或许指标0在严格的达标考试中可用于判断试题能否考量学生的达标情况。而条件概率之差则可以分析出题目对各类考生的区分度。P指标、W指标和qq指标都反映了根据某道题目归类的可靠性，实质上便是对能力之间的区分能力。指标 P 则通过归属概率来考察在答对和答错的情况下，题目对类别的区分能力或者正确归类的能力，反映了该题目对潜在分类中的重要性，归属概率越趋于平均则表明该题目对分类所起的作用越小，反之亦然。指标和qq指标则用优势比的思想分析考生能力与某道题目之间的关联

34、性，关联性越高，说明题目越能反映考生的能力水平。实证数据的分析结果表明，答对率之差、P指标、W指标和qq指标分析所得的结果呈现一致性，都能找到区分度明显低的题目，其中由于指标和qq指标存在着非线性关系，这两个指标对各个题目区分度的判断都十分相近。同时也存在一些差异，尤其对于题目之间区分度的高低比较，此外，W指标和qq指标似乎更为严格或敏感，这些差异与分析的角度和思路的差异有关。例如，同样是分析区分度，条件概率之差是用线性相减的方法，而W指标和qq指标则用优势比的方法；前者更为直观、简单；但后者更适合于概率的计算原理，而判断的标准则较为模糊。如表 6，传统的区分度计算仅能识别出题1

35、2区分度不理想，而对于其他题目都判断为十分好的区分度，过于乐观，并且无法了解各个能力层次之间的区分能力。基于潜在类别模型的指标处是作答组合的归属概率，归属概率越高，则说明该作答组合越能明确归于该类别。在潜在类别模型中，潜在变量相当于离散型的真分数，一般将归属概率最高的类别看作该向量真正所属的类别，此时，归属概率就是正确归类的概率，即归类的可靠性，从某种程度上就是信度的反映。因此，该指标可以针对具体的作答组合分析题目整体的信度，各个潜在类别的平均归属概率则可反映整套试题在各个能力水平考生中的测量信度。对于上述例子，传统的信度a系数为0.67，这说明信度不理想。而基于潜在类别模型的指标

36、处则发现，试题整体对高分组有很高的信度，在低分组的信度较好，正确归类的概率是 0.81，而对于中等组的考生信度则比较低（0.72）。这反映该试题对高分组的测试具有较高的可靠性，而对于中等组和低分组则不然；从另一个角度看，也可能是由于试题在中等组可靠性不佳，从而导致传统的信度系数很低。焦璨等人（2008）也指出，大型考试常见的测量数据分布多是呈明显的偏态或多峰分布，模拟实验研究发现，在这种情况下需要求出各个子分布的信度，即用多个信度来描述测验的可靠性。指标处正体现了该研究结论的思想，克服了传统a系数在实际考试中数据非正态分布时单一而不准确等局限。另一方面，从该结果可知，指标Tf对信

37、度的评价也有可能存在高估的情况，这可能由于这只是分类的信度，相比于估计连续变量，对精确度的要求比较低，正确分类的几率比较大。总体来说，在经典测量理论框架下主要通过线性方法来处理连续型数据，以分析试题的区分度和信度，但其前提条件往往难以满足。基于潜在类别模型的试题分析，能够在不同能力层次的考生群体下，分别进行各种项目分析，相比传统的项目分析更能客观细致地考察题目真正的特点；同时，将考生的作答看做一组二分变量所组成的向量，并将类别变量的概率转化为参数模型，发挥潜在类别模型在处理离散型数据中分类客观、科学的优点，而且对数据的分布前提假设较少，克服传统方法笼统而不符合前提假设的情况。在本研究

38、中，由于没有客观的校标，对于这些指标判断的准确性尚无法判断。另一方面，这些指标虽然能全面对试题进行分析，但是显得比较繁琐，根据分析目的选择性地采用其中的指标则更为合适。由于这些试题分析方法的判断标准还比较模糊，至今还没有定出决断值，如何根据这些指标进行更为明确的分析也是值得进一步关注的问题。5 结论基于潜在类别模型对某考试中的 12 道试题进行区分度和信度的分析，结果发现：根据考生的能力水平可以分为高分组、中等组和低分组；题4 和题12 的区分能力不理想，需要修改或删除。其他题目能对高分组和低分组有较好的区分，而对于相邻类别的考生则较难区分。条件概率之差、P指标、屮指标和qQ指标对题

39、目的区分度评价结果与传统的区分度基本一致，相对于传统方法，区分度评价还能具体到不同能力水平的被试；元指标与传统的a系数所得出的信度评价则有所不同，可能是由于传统a系数对信度的计算没有考虑具体到样本子分布，也可能由于处指标只针对分类的可靠性，评价比较宽松。总而言之，基于潜在类别模型的试题分析，能针对不同能力水平的考生，这更符合考试数据的实际；对于这些方法的精确性以及具体的项目评价标准，则是未来研究的一大重点。参考文献Akaike, H. (1973). Information theory and an extension of the maximum likelihood princ

40、iple. In B. N. Petrov & F . Caski(Eds.), Second international symposium on information theory. Budapest: Akademiai Kiado.Biemer, P.P.,& Wiesen, C.(2002). Measurement error evaluation of self-reported drug use:a latent class analysis of the USNational Household Survey on Drug Abuse. J.R.Statist. Soc.

41、A, 165, 97-119.Chih-Chien , Yang.(2004). Evaluating latent class analysis models in qualitative phenotype identification. ComputationalStatistics & Data Analysis, 50, 1090-1104Clogg, C.C., Manning, W.D. (1996). Assessing reliability of categorical measurements using latent class models. In: von Eye

42、,A., Clogg, C.(eds.), Categorical Variables in Developmental Research. Academic Press, San Diego, CA, PP. 169-182.Flaherty, B. P. (2002). Assessing reliability of categorical substance use measures with latent class analysis. Drug andAlcohol Dependence, 68(Supplement 1), 7-20.Goodman, L.A. (1974). T

43、he analysis of systems of qualitative variables when some of the variables are unobservable: Part 1-A modified latent structure approach. American Journal of Sociology, 1179-1259.焦璨，张敏强，黄庆均，张文怡，黎光明(2008).非正态分布测量数据对克隆巴赫信度a系数的影响应用心理学14(3), 276-281.Kreuter， F.，Yan，T. & Tourangeau， R. (2008). Good item

44、or badcan latent class analysis tell?: the utility of latent classanalysis for the evaluation of survey questions. J.R.Statist. Soc.A, 171, 723-738.Lazarsfeld， P. F.，& Henry， N.W.(1968). Latent Structure Analysis.Boston: Houghton Mill.邱皓政.(2008).潜在类别模型的原理与技术. 北京：教育科学出版社.Spencer， B.D. (2009). When do

45、 latent class models overstate accuracy for binary classifiers?: With applications to juryaccuracy， survey response error， and diagnostic error. Institute for Research Northwestern University Working PaperSeries，1-24.Schwarz， G. (1978). Estimating the dimension of a model.Annals of Statistics, 6(2)，

46、 461-464.Vermunt， J.K. (2002). Multilevel latent class models. Sociological Methodology， 33， 213-239Application of Latent Class Model in Binominal Ability Test AnalysisJiao Can1，2， Zhang Jie-ting2， Gao Yanhong2， Zhang Min-qiang2(1 Department of Psychology， Shenzhen University，Shenzhen 518000)(2 Psyc

47、hological Application Research Center， South China Normal University，Guangzhou 510631 )Abstract：The present study introduced some methods on the basis of latent class model to analyze a binominal test. Index 0 indicates whether the item can reflect the examinees ability definitely; index P , 屮,q and

48、 the differences of conditional probability among various latent classes shows how w ell the item discriminates a certain class from others; while the item-set indexn assesses reliabilty of a certain response vector. Comparison between the traditional analysis methods and the new ones is conducted a

49、ccording to an empirical research, which demonstrates that the new and trandictional evaluation of item discrimination share similar results, while analysis of reliability are diverse. Further discussion indicates that item-specific index offer more objective foundations in cutting or modifying item

50、s; reliability base on latent class model precedes the traditional index such as reliability coefficient. The new methods evaluate the test quality specific to various ability level of examinees, which is more sensible to the actual sample distribution with multi-modal rather than unimodal.Key words: test analysis, latent class model, discrimination, reliability

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

潜在类别模型在试题分析中的应用

最新文档

相关资源

相关搜索