测验效度概念地新发展doc北京语言大学教育测量地地研究所

上传人：沈*** 文档编号：109959102 上传时间：2022-06-17 格式：DOC 页数：10 大小：122KB

收藏版权申诉举报下载

第1页 / 共10页

第2页 / 共10页

第3页 / 共10页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《测验效度概念地新发展doc北京语言大学教育测量地地研究所》由会员分享，可在线阅读，更多相关《测验效度概念地新发展doc北京语言大学教育测量地地研究所（10页珍藏版）》请在装配图网上搜索。

1、word测验效度概念的新开展谢小庆语言大学摘要：在1985年教育与心理测验标准第5版出版之前，效度研究的核心概念是“效标criterion。效度研究被视为一种用“效标对测验的效度进展证明verify的过程，效度研究被视为一种对测验分数做出有效valid解释的过程。在1985年以后，效度研究的核心概念是“证据evidence。效度研究被视为一种通过积累证据对测验的效度进展支持support的过程，效度研究被视为一种对测验分数做出合理reasonable解释的过程。关于效度的这种理解，突出地表现在1999年出版的教育与心理测验标准第6版中。美国教育协会和美国国家教育测量学会共同组织编写的教育测量在

2、业内被称为是“测量领域的圣经。在2006年教育测量第4版出版以后，效度研究的核心概念变为“理由warrant。效度研究被视为一种通过构造“理由系统和“理由网络对效度所进展的“论证argument，效度研究被视为一种对测验分数做出可承受的plausible解释的过程。本文结合作者在考试实践中的一些体会，介绍了效度概念的新开展。关键词：测验考试效度考试是一把尺子，被用来测量应考者的能力。这把尺子本身可能存在质量问题。只有达到质量标准的考试才能被应用。效度是刻画考试质量的最重要指标，它反映了考试在多大程度上实现了考试目的。在美国教育研究协会American Educational Researc

3、h Association，AERA、美国心理学会American Psychological Association，APA和美国国家教育测量学会National Council on Measurement in Education，NCME共同制定的教育与心理测验标准Standards for Educational and Psychological Testing 12和美国教育协会American Council on Education和美国国家教育测量学会共同组织编写的、被人们称为“教育测量领域的圣经的教育测量Educational Measurement34中，首先讨论的都是

4、考试的效度问题。一、效度概念的历史演变考试是一把尺子。这把尺子的准确性，需要靠另一把尺子来检验。这“另一把尺子，就是“效标criterion，或“标准。在招生名额有限的情况下，当我们准备将一项测验如手指速度测验或注意力测验作为“打字员培训班的招生考试时，我们可以对这项测验的有效性进展检验。我们可以计算经过一个月培训后的学员的打字速度与测验分数之间的相关。如果存在显著的相关，我们可以说这项测验是有效的。这时，经过一个月培训后的打字速度就是“效标。早期的效度研究是围绕“效标展开的。例如，作为美国高考的学术评估测验SAT的主要效标是大学第一年各科考试成绩的平均，英语TOEFL考试的效标是英语教师对

5、学生英语水平的评价，汉语水平考试HSK的效标是汉语教师对学生汉语水平的评价。在教育部考试中心的资助下，笔者曾经进展过一次关于语文高考的效度研究，采用了4种效标：高中成绩，高中任课教师对学生语文水平的评价，高中同学之间的互相评价，大学第一学年的各科成绩平均。 8受国家公务员局委托，笔者曾经对假如干年的中央机关公务员录用考试进展效度研究。研究所采用的最主要效标是考生的学历，划分为大专、本科、硕士、博士等几个等级。大学中由任课教师命题的、监管并不严格的课程考试成绩真的比顶尖专家命题的、严格监管的高考成绩更可信吗？真的可以被作为效标去检验高考成绩吗？如果以“学历作为效标来检验公务员录用考试的成绩，高学

6、历就一定是高能力吗？为什么不直接根据学历来录用公务员呢？ “效标被用来对考试的质量进展检验。在许多情况下，这些效标很容易受到质疑。心理测量学家们发现，“效标只能在很有限的领域内为测验提供有说服力的效度检验，更多的情况下如此是捉襟见肘，难以自圆其说。于是，他们尝试着为“效标配备了两个助手，一个的名字叫“内容content，另一个的名字叫“构念construct。在可疑的“效标显然靠不住的时候，心理测量学家说，测验可以是特定知识内容总体的一个代表性样本。只要我能够证明我编制的测验是特定知识内容总体的具有代表性的样本，我就可以说我的测验是有效的，说它具有“内容效度content validity。例

7、如，高考语文考试可以是中学语文教学内容总体的一个代表性样本。“内容效度面临双重挑战。首先，我需要证明我编的高考语文试卷是中学语文教学内容总体的一个代表性样本。这并不容易。“中学语文教学内容总体本身就是一个充满争议的话题。关于什么是“语文，1949年以来已经争论了60多年。根本观点有4种。一是语言和文字。二是语言和文学。“唐初四杰是哪几人？过秦论的作者是谁？红楼梦的主题思想是什么？阿Q正传的主题思想是什么？小桔灯采用的是什么描写手法？这些，属于文学问题，不属于语言和文字的X围。三是语言和文化。中国人结婚穿红而不穿白，中国人责“无后为“不孝之最，这些属于中华文化。四是语言和人文。礼义廉耻，仁义礼智

8、信，这些属于“人文。根据“语言和人文的观点，语文还应该包含教化，包含品德教育，包含价值观。语文界的前辈叶圣陶、吕叔湘、X志公等，根本持“语言和文字的看法。今天，在我国语文教学界最有影响的一批权威人物如此持“语言和人文的看法。“总体的边界都不清楚，怎么证明你编的测验是具有代表性的样本？其次，即使我能够证明我的测验是具有代表性的样本，我还需要继续证明那些掌握了“中学语文教学内容总体的考生更有可能在包括数学系、物理系、生物系在内的大学学习中具有优势。近年来，人们常常提到“钱学森之问，追问“为什么中国的大学培养不出杰出人才。我还需要继续证明，我编制的作为“中学语文教学内容总体代表性样本的语文高考试卷，

9、确实可以向那些潜在的“杰出人才倾斜。显然，这是比证明我的试卷具有取样代表性更困难的任务。当主将“效标和助手“内容都招架不住的时候，心理测量学家就只好以另一个助手“构念来搪塞。他说，虽然我无法证明我的考试具有“效标关联效度和“内容效度，但我的考试具有“构念效度。“构念效度成了一个“筐，所有无法得到效度证明的考试都可以往里面装。据说，“语文能力是一个“构念，这个“构念可以用考试来界定，这些界定“构念的考试具有“构念效度。关于“构念效度虚弱的逻辑根底和循环论证，讨论的文章已经很多，不再赘述。正是由于认识到原有效度概念框架的脆弱，心理测量学家们开始尝试构造新的效度研究X式Paradigm。这种努力，表

10、现在1985出版的教育与心理测验标准第5版1中，在1989年出版1993年修订的教育测量第3版4和1999年出版的教育与心理测验标准第6版2中，得到比拟完整地阐述。在新的研究X式中，不再将效度划分为效标关联效度、内容效度和构念效度。“构念被用来定义效度概念。“构念被定义为：“测验所要测量的概念或特性the concept or the characteristic that a test is designed to measure。AERA，1999，第173页。所谓效度，就是测验对构念进展测量的有效程度。从此，“构念效度construct validity这一短语对于效度来讲已经成为多余r

11、edundant。AERA，1999，第174页。随着“构念效度退出历史舞台，“构念走到了舞台的中心。在新的研究X式中，“证据evidence取代效标成为效度研究的核心概念。效度研究被视为一种通过积累“证据对测验的效度提供支持support的过程，效度研究被视为一种对测验分数做出合理reasonable解释的过程。在教育与心理测验标准第6版中，提出了支持考试效度的5个方面的证据：基于内容的证据(evidence based on content)；基于反响过程的证据(evidence based on response processes)；基于内部结构的证据(evidence based o

12、n internal structure)；基于与其他变量之间关系的证据(evidence based on relations to other variables)；基于测验结果的证据(evidence based on consequences of testing)。29这时，效度研究的逻辑是，虽然我不能“证明我的考试是有效的，但我可以用尽可能多的“证据去支持我的考试。尽管我不能确认某项考试一定有效，但我可以从互相竞争的考试中选择得到更多证据支持的考试，我可以根据效度研究结果做出合理的选择。在2006年出版的教育测量第4版中，将这种效度研究X式称为基于构念效度研究之上的“一元化效度模型

13、construct validation as the basis for a unified model of validity。Brennan，2006，第21页在考试实践中，这种效度研究X式继续受到挑战，继续遭到质疑。人们发现，仅仅靠作为证据的“事实fact或“可观察行为observable behavior并不足以对测验效度提供足够的支持。只有当“证据与一些预设的“假设结合在一起时，才能对测验提供支持。在考试领域中的一个重要的效度研究案例是美国教育测验服务中心ETS关于客观性选择题和主观性作文题的比拟研究。选择题能否被用于考查写作能力？上世纪50年代初，在美国语文教学界曾经存在激烈的争

14、论。为此，ETS从1954到1957年进展了一项长达3年的实证研究。ETS对英文写作水平考试English position Achievement Test ，简称ECT，全部是选择题、普通写作测验General position Test，简称GCT ，两小时的作文考试和学习能力倾向测验Scholastic Aptitude Test，简称SAT，的言语局部全部是选择题等三个考试进展了比拟研究。采用的效标是语文教师对学生作文水平一年或一年以上的观察结论。1957年，ETS公布了他们的研究成果：SAT的效度最高，与语文教师基于长期观察对学生写作能力做出的主观评价最一致。其次是由客观性试题组

15、成的ECT，最差的是由作文题目组成的GCT。5 正是由于这一项研究，才使其后的40年中客观性选择题成为美国语言能力测试的主要题型。这是一项关于选择题效度的研究。支持选择题效度的“证据或“事实是：选择题与效标之间的相关最高。要想从这一证据得到“选择题优于作文题的结论，需要一系列的假设。最主要的假设是：任教一年的语文教师对学生的写作能力的评价是有效的。同时，还包含假设：选择题的命题人与作文题的命题人具有一样的水平；作文题的评分人是合格的，可以给出正确的评分；任教一年的语文教师具有正确评价学生写作水平的能力；他们给出的评价具有可比性；他们的评价是认真负责的。显然，只有基于这一系列假设之上，“相关最高

16、的“证据才能对选择题的有效性提供支持。这些假设都是可能受到质疑的。为了使结论具有说服力，需要回应这些质疑，需要对这些假设进展论证，有时候需要展开进一步的研究。对这些假设论证得越充分，结论越具有说服力。正是由于认识到仅仅凭借“证据或“事实不足以对考试效度提供支持，测量学家在效度研究中引入了基于非形式逻辑的图尔敏Toulmin论证模型中的概念“理由Warrant。Brennan，2006，第27页在“理由中，不仅包含“证据，还包含“假设。“证据和“假设共同构成了“理由。这时，效度研究不再是仅仅靠“证据去“支持support考试的效度，还需要靠“理由去“论证argument考试的效度。在教育测量第

17、4版中，“理由成为效度研究的核心概念。效度研究被视为一种通过构造“理由系统和“理由网络对效度所进展的“论证，效度研究被视为一种对测验分数做出可承受的plausible解释的过程。新的X式将效度研究视为考试的支持者与考试的反对者之间的一场辩论。支持者努力为考试的效度辩护，反对者对考试的效度提出种种质疑。通过辩论，一方面为考试赢得更多的支持，拓展更多的应用领域，另一方面，界定考试的应用X围，防止考试分数的误用。二、效度论证的根本过程在新的效度研究X式中，效度研究不再是简单的计算测验分数与效标之间的相关，也不再是简单地收集证据或事实，而是一个持续的、层层深化的、无止境的研究过程。新的效度研究X式主

18、要借鉴了图尔敏论证模型。在图尔敏的模型中，包含了资料datum，D、必要条件backing，B、理由warrant，W、限定qualifer，Q、例外exception，E和结论claim，C等6个根本要素。论证的根本过程是：资料D和必要条件B共同构成了理由W，在承受了例外E的反驳之后，经过限定Q，使结论得以成立。图1给出了效度论证的根本过程。图1 效度论证的根本过程以高考语文考试的效度论证为例。资料是实证研究结果：高考与大学一年级各科平均成绩具有显著相关。必要条件是：大学中的课程考试成绩可以反映出学生的大学学习水平，研究样本具有足够的代表性，大学课程考试的评分是公正的，高考中不存在作弊现象，

19、大学课程考试中不存在作弊现象，。资料与必要条件共同构成了理由。结论是：高考语文考试对于预测大学学习表现是有效的。例外是：数学系学生的大学各科平均成绩与高考语文成绩之间的相关不显著，某国际物理大赛金奖获得者语文高考成绩很低。限定是：结论不适用于数学系的学生，结论不适用于国际物理大赛金奖获得者。图2给出了高考语文考试的效度论证过程。图2高考语文考试的效度论证过程某一个论证层次的资料和必要条件，可以是另一个论证层次的结论。例如，“大学学习成绩可以反映出学生的大学学习表现，在关于高考的效度研究中，这是必要条件，同时，这也可以成为另一项关于大学中课程考试效度研究的结论。三、效度论证的主要环节在新的效度

20、研究X式中，效度研究不再仅仅是计算测验分数与效标之间的相关系数，而是贯穿于从施测到决策的整个测验过程中。在教育测量第4版中，讨论了评分scoring、概化generalization、外推extrapolation和决策decision4个环节中的效度论证。1、评分中的论证2002年全国统一高考的作文题目是“心灵的选择。一位考生在作文中讨论了潘金莲的心灵选择，在武大郎和西门庆之间的选择。初评仅得20多分总分为60分。评分教师认为文章的思想不健康。经过评分组几十位评卷教师讨论，考虑到这篇文章文笔流畅、行文优美、引经据典，分析有理有据，改成了40多分。再之后，评卷指导委员会认为是一篇不可多得的佳作

21、，给出了接近总分为的成绩。6 两次改判，先后给出了3个不同的分数，实际上表现了评分的不同侧重点。长期以来，在作文评分的思想性、内容丰富性、结构、逻辑、语言、书写、卷面整洁等评分要素的相比照重中，一直是存在争论的。不同的评分规如此，会影响到考试的效度，会影响到分数的解释。对此，是需要论证的。在评分环节的论证中，我们需要关注两个问题。第一，评分规如此是否合理；第二，评分员是否正确地按照评分规如此评分。2、概化中的论证测验是根据样本行为推测行为总体的过程。在测验过程中，总会存在概化推论。在高考语文考试中，我们关心的不是考生在考试中的表现，我们关心的是考生所具有的语文能力，我们需要把考生的考试表现概化

22、到考生的语文能力，需要根据考试成绩推论考生所具有的语文水平。在现行语文高考中仅仅包括阅读和书面表达，没有包括听力和口头表达。如果效度研究的结果显示阅读和听力之间具有很高的相关，书面表达和口头表达之间具有很高的相关，那么，我们就可以将高考成绩概化到听力和口头表达能力，将语文高考的高分解释为“具有包括阅读、听力、口头表达和书面表达能力在内的语言能力。这种概化，需要以效度研究为根底，需要基于充分的论证之上。根据高考成绩做出的概化，X围可能很不同。可以概化到“对高中语文教科书的记忆能力，可以概化到“阅读和书面表达能力，可以概化到“包括阅读、听力、口头表达和书面表达能力在内的语言能力，可以概化到“语言和

23、文学能力，可以概化到“包括语言、文学、中华文化的语文能力，可以概化到“包括语言、文学、中华文化、道德修养和正确价值观的语文能力。概化到多大的X围？这需要根据效度研究的结果做出回答。在概化环节的论证中，我们也需要关注两个问题。第一，试题对目标领域的代表性，控制试题的取样误差。第二，用于效度研究的考生样本对考生总体的代表性，控制考生的取样误差。3、外推中的论证当我们将考试成绩作为招生、招工的依据之一的时候，我们所关注的并不仅仅是考生的某项能力，我们更关注考生未来的学习、工作表现。当我们将高考语文成绩作为招生依据的时候，我们不仅需要从测验分数概化到语文能力，我们还需要继续外推到“完成大学中的学习任务

24、。大学中的数学、物理等专业，是否像文、史、哲等专业一样，同样需要较高的语文能力？对此，人们是存在不同看法的。有些物理系的教师认为，物理系的学生只要数学好就可以了，语文成绩并不重要。另一些人不同意这种看法。曾担任复旦大学校长的数学家苏步青先生曾说：“如果允许复旦单独招生，我的意思是每一堂先考语文，考后就判卷子。不合格的，以下课目就不考了。语文你都不行，别的是学不通的。7是否高考语文成绩高的人都可以顺利完成大学的学习任务？是否高考语文成绩低的人难以完成大学的学习任务？语文能力对于在大学中完成数学、物理等专业的学习任务是否重要？这些问题，需要根据效度研究的结果做出回答。4、决策中的论证在我国的公务员

25、录用考试中，包括资格审查，公共科目笔试，专业科目笔试，面试，考察、试用等环节。所谓“考察，包括档案审查和实地调查，包括走访报考者原来就读的学校或曾经工作的单位，了解报考者以往的工作和学习表现。在美国的大学招生中，标准化测验SAT和ACT的成绩大约在招生决策中占三分之一的比重。占比重最大的是高中成绩。之外，推荐信，获奖记录，参加公益活动，参加文娱、体育活动等，都会影响到招生决策。在我国高考中，对少数民族考生有“加分政策。在美国，多数大学都坚持对少数民族学生、女生和贫困家庭学生的“加分政策。在招生、招工决策中测验应占多大的比重？高考语文考试对于文科和理科考生是否应划分不同的与格线？是否应对某一特定

26、群体采用“加分政策？这些问题，也需要根据效度研究的结果做出回答，也需要通过效度论证做出回答。高考对根底教育具有重要的“指挥棒，许多考试都具有导向wash back作用。考试的这种导向作用，也需要包含在关于决策的效度论证之内。在1999年出版的教育与心理测验标准第6版中，专列一节讨论了基于测验结果consequences )的证据。在2006年出版的教育测量第4版中，将“决策作为效度论证的一个环节。这些，都表现了对考试的社会影响的重视。四、效度论证的评价标准关于测验效度的研究是否为测验的分数解释提供了足够的依据？效度论证是否具有说服力？在教育测量第4版中，给出了关于效度论证的3条评价标准。1.

27、清晰性clarity：效度论证应给出一个清晰的效度研究框架。对于理由W中所包含的资料D和必要条件B，都应给出清晰、详细的说明。同时，对于论证中所包含的概化、外推过程也要给出清晰、详细的说明，使这些推论可以有说服力地支持最后的结论和决策。在这里，尤其要警惕一些隐含的、模糊的、可疑的假设造成误导。2. 完整性Coherence：在从可观察的事实到结论以至决策的整个推论链条中，首先，每个推论环节都是可信的。其次，整个链条是完整的，连贯的，不存在逻辑上的缺失环节，不存在逻辑跳跃。3. 可承受性Plausibility：任何一项科学研究都会基于一些预设的前提假设之上。例如，当我们用尺子测量一块衣料的长

28、度时，我们预设的前提假设是“尺子不随温度变化和“布料不随温度变化。当我们用水银温度计测量温度时，我们预设的前提假设是“水银与温度成线性关系。显然，这些假设可以受到质疑，但这些假设是可承受的Plausible。在论证的过程中，这些假设可以成为理由W的必要条件B。在效度论证中，总会包含许多预设的前提假设，这些假设应该是可承受的。今天，已经有英语和汉语的基于网络的、计算机自动评分的口语考试。对这些口语考试可以进展效度研究。一种效度研究思路是将考试成绩与口语面试成绩进展比拟，根据一组考生样本计算网上考试成绩与口语面试成绩之间的相关。计算得到的相关系数是资料D。预设的前提假设是“面试可以考查出考生的真实

29、口语水平。这个假设，是可以承受的。得到的研究结论，也具有说服力。相反，今天我国有上千所大学中开设有大学语文课程。如果一项关于高考语文考试的效度研究以大学中的大学语文成绩作为效标，计算高考语文成绩与大学语文课程之间的相关。这时预设的前提假设是“大学语文课程成绩可以反映出学生的语言能力。由于这一假设缺乏可承受性，按此思路得到的研究结论将缺乏说服力。事实上，效度论证中的许多假设可能受到质疑，如“面试可以考查出考生的真实口语水平。面试中还可能存在题目取样误差和评分人误差，面试成绩还可能包含来自面试技巧强化辅导的误差因素。对此，还可以展开进一步的研究。在效度论证中，所有预设的前提假设，整个的推理过程，通

30、过推理得到的结论，最终的决策，都应该具有可承受性。像所有的科学研究一样，我们不可能将所有预设的假设全部排除在外。那样，效度研究将永无止境，效度研究将实际上无法进展。我们无法要求所有的前提假设都能得到实证研究的支持，但是，我们可以要求所有的前提假设都是可承受的。对于那些很容易受到质疑、很脆弱的前提假设，我们可以展开实证研究。例如，如果我们围绕某所大学中的大学语文的课程考试进展了一项有说服力的效度研究，研究结果显示这项考试的成绩确实可以反映大学生的语言能力。那么，就可以将这项大学语文的课程考试成绩作为研究高考语文考试效度的效标，可以在关于高考语文考试效度的研究中包含“大学语文课程成绩可以反映出学生

31、的语言能力这样的假设。五、小结从1985年以来，“效度概念似乎变得越来越复杂，越来越费解，越来越“玄。在今天的所谓学术界，确实存在一些把简单的事情说得很复杂、很玄妙的现象，确实存在一些很善于“浅入深出的所谓“学者。是否心理测量学者们也在效度问题上故弄玄虚呢？笔者不这样认为。笔者认为，正是由于“效标往往经不起推敲，人们才将注意力转向“证据。正是由于“证据常常受到质疑，人们才提出了“理由概念，才开始试图构建理由系统和理由网络，才将逻辑学研究中的图尔敏论证模型引入教育和心理测量领域。这并不是教育和心理测量学者们故弄玄虚，这是在考试实践推动下顺理成章的理论开展。从效度概念的开展可以看出，30年以来，教

32、育和心理测量学者们关于考试效度的看法越来越慎重，也可以说，越来越不自信。这是由考试测量的对象人的特点所决定的。人具有生命，具有个性，具有能动性。由于人的复杂性，教育和心理测量的复杂性远远超出人们30年前的设想，远远比对于长度、重量、温度、电子运动、电流传导、电波传导、火箭速度、星球运行轨道等物理现象的测量，复杂得多。这是教育和心理测量学者们关于考试效度的看法越来越慎重的内在原因。物理学家所关注的，是怎样解释世界。教育和心理测量学家所关注的，是怎样解释测验分数。在人类进入21世纪的时候，物理学家们发现，与100年前相比，世界的图像变得非常复杂，变得远比人类进入20世纪时所设想的世界图像复杂得多。

33、怎样解释世界？物理学家们变得越发慎重。他们不再谈论“真理，而是说“科学理论或“科学假说。他们不再谈论“客观的世界图像，而是说“可能的世界图像。他们不再谈论“准确测量，而是在承受“测不准原理的前提下谈论各种可供选择的解释世界的方式。与物理学相仿，进入21世纪的时候，心理测量学家们发现，与30年前的想象相比，测验的效度研究要复杂得多。怎样对测验分数进展解释？心理学家们也变得越发慎重。他们不再一般地谈论一个测验的效度，而是论证将一个测验应用于某一特定目的时候，某一次测验的分数解释的效度。参考文献1. American Educational Research Association：Standard

34、s for educational and psychological testing5th edition，M, Washington, DC：AERA, 19852. American Educational Research Association: Standards for educational and psychological testing (6th edition，M Washington, DC：AERA,19993. Brennan, R. L., ed. : Educational measurement (4th edition), C Washington, DC

35、: American Council on Education/Praeger，20064. Linn, R. L., ed. : Educational measurement (3rd edition) ，C Washington, DC：American Council on Education /ORYX Press，19935. Owen，D.： None of the above, M New York: Rowman & Littlefield Publishers, INC, Lanham, 1999, P27-396单士兵：高考作文两次改判背后的幸与不幸，N南方日报，2002

36、年7月22日7. 苏步青：学林散叶，M 某某：某某人民，1997，第250页8. 谢小庆：大学学习能力倾向测验研究报告，C收入教育部考试中心主编能力考试的研究与实践，中国人民大学，1999第381-400页9. 谢小庆：对测验效度的一些新认识，J 考试研究，2002年第1期，第25-30页New Development in Testing ValidityXie Xiaoqing(Beijing Language and Culture University)The key concept of validation has been criterion. Validation was vi

37、ewed as a procedure that using criterion to verify the validity of a test, and gives test score a valid interpretation. Since Standards for Educational and Psychological Testing (5th edition) was published in 1985, the key concept of validation changed to evidence. Validation was viewed as a procedu

38、re that cumulating evidence to support the validity of a test, and gives test score a reasonable interpretation. After Educational Measurement (4th edition)was published in 2006, the key concept of validation change to warrant. Validation was viewed as a procedure that using warrant to argue for the validity of a test, and gives test score a plausible interpretation. This paper introduced the new development in testing validation.Key words: test, validity发表于考试研究2013年第3期10 / 10

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

测验效度概念地新发展doc北京语言大学教育测量地地研究所

最新文档

相关资源

相关搜索