人力资源总监必修《心理测量技术》

上传人：仙*** 文档编号：28125876 上传时间：2021-08-23 格式：DOC 页数：46 大小：232KB

收藏版权申诉举报下载

第1页 / 共46页

第2页 / 共46页

第3页 / 共46页

下载文档到电脑，查找使用更方便

15 积分

下载资源

资源描述：

《人力资源总监必修《心理测量技术》》由会员分享，可在线阅读，更多相关《人力资源总监必修《心理测量技术》（46页珍藏版）》请在装配图网上搜索。

1、人力资源总监必修心理测量技术第一章心理测验总论学习要求：了解心理测验发展的历史，认识心理测验在心理科学中的重要作用；掌握心理测验的含义；心理测验的性质；种类和功能。第二章心理测验的编制学习要求：掌握心理测验的编制步骤和方法；掌握在编制心理测验的过程中，如何确定测验的目的，拟定编制计划，设计测试项目，合成测验，编写测验手册等；掌握测验项目难度和区分度的概念和计算方法。第三章测量的误差及其检验学习要求：了解测量误差的概念、种类以及误差的来源；掌握信度和信度的的概念、种类以及各种信度和效度的估计方法；了解影响信度和效度的因素以及如何根据这些影响因素来提高测验的信度和效度。第四章分数的合成

2、与解释学习要求：理解分数合成的种类；掌握分数合成的方法及各种方法的优缺点；掌握常模参照分数和标准参照分数的含义种类和确定方法；掌握常模团体的取样方法；懂得如何将原始分数转换为百分等级、线性标准分数、常态化的标准分数（如T分数、标准九分数等）；掌握测验分数的正确解释方法。第五章心理测验的使用学习要求：了解心理测验主试应该具有的资格；掌握测验的选择、施测、评分和解释等一系列测验使用的知识和技能；掌握测验的应用领域；熟悉心理测验的管理。第六章智能测验学习要求：了解智力测验和创造力测验的发展；掌握各种智力测验和创造力测验的适用条件、施测内容、施测步骤、评分方法和结果解释；能够正确选择智力测验和创造

3、力测验，并能灵活应用。第七章人格测验学习要求：了解人格测验的内涵；掌握人格测验的种类和人格测验的编制技术；熟悉各种人格测验的内容、施测步骤、评分标准和分数解释方法；能够正确使用并灵活应用各种人格测验。第八章成就测验学习要求：了解成就测验的性质、种类和用途；掌握标准化成就测验的编制程序；掌握布鲁姆和克拉斯沃对认知性目标的分类；掌握客观题与论文题的特点及优缺点。第九章职业测验学习要求：了解职业测验的产生和发展；掌握职业测验和智力测验在职业决策中的应用；掌握霍兰德的职业心理类型说和罗的职业心理类型理论的基本思想。第十章临床测验学习要求：掌握学习障碍的概念、成因与促因及鉴定方法；掌握儿童多动症

4、的概念及诊断；掌握儿童适应性行为的概念和测量；掌握心理健康问卷的使用。第一章心理测验总论内容简介本章主要介绍心理测验发展的历史；心理测验的含义和性质；心理测验种类。本章的学习重点在于掌握心理测验的含义、性质和种类。通过本章的学习，学习者应了解心理测验发展的历史，认识心理测验在心理科学中的重要作用；掌握心理测验的含义和性质；掌握心理测验种类。第一节心理测验的历史一、心理测验在我国的发展历史心理测验的历史根源虽无从考究，但中国人最早使用测验是举世公认的。中国古代具有丰富的心理测量思想。我国近代心理测验大约源于1914年左右，当时西方智力测验的引进带动了我国各种测验的发展。1920年，廖世承和陈

5、鹤琴先生在南京高等师范院校开设心理测验课程，正式介绍科学的测验方法，并出版了心理测验法一书，影响很大。1931年成立了中国测量学会。1932年测验杂志创刊。 1949年后，由于多方面原因，心理测验一直成为禁区。1979年，心理测验在我国才开始恢复地位。1980年初，北师大心理系首次开设心理测量课。部分单位陆续组织人员修订和编制一些心理测验，并把心理测验应用于实际部门。1984年，中国心理学会成立了心理测验工作委员会。二、科学心理测验的产生和发展（一）心理测验的产生是社会的需要科学的心理测验产生于19世纪工业革命成功后的欧洲国家。促使科学产生和发展有两个重要因素：一是社会的发展，社会分工日益精

6、细，对劳动者的要求越来越高，社会上产生了对人员选拔、培训和职业指导的需要。二是对智力缺陷者和精神病患者鉴定和治疗的需要，社会急需有效的测量手段鉴定智力缺陷者和精神病患者。（二）心理测验的先驱在心理测验发展史上，对科学心理测验产生和发展起重要影响的三位代表人物：高尔顿、卡特尔和比奈。第一个倡导科学心理测验运动是高尔登，他设计了许多简单的测验用于测量人的生理和心理特征的差异，这可视为心理测验的开端。他的另一个重要贡献是发展了分析个别差异资料的统计方法，为心理测验奠定了统计学基础。另一个对促进心理测验发展作出巨大贡献的是美国心理学家卡特尔，1890年，卡特尔在心理杂志上发表心理测验与测量一文，这是“

7、心理测验”这个术语第一次出现在心理学文献中。卡特尔在文中论述了心理测验理论上的一些问题，他的一些观点已成为现代测量学上的重要观念。还有一位非常重要的人物是法国的比内。比内是智力测验的创始人。为了鉴别低常儿童的需要，1905年他与助手西门编制了世界上第一个正式的心理测验比奈西蒙智力量表。目前世界上众多的智力测验，其基本原理和重要方法都由比奈奠定的。美国著名的心理学家波林曾指出：“在测验领域中，19世纪80年代是高尔顿的10年，19世纪90年代是卡特尔的10年，20世纪头10年则是比奈的10年”。（三）心理测验的发展比内西蒙量表问世之后心理测验的发展主要表现在以下几个方面：1操作测验的发展比内西蒙

8、智力量表偏重于用语言文字材料去测量智力，只能测量到智力的一个方面，而不能有效地测定整体的智力。由于理论上的缺陷和实际上的需要，操作测验被发展起来。2团体智力测验的发展比奈西蒙智力量表都是个别测验，一次只能测查一个人，若测验对象太多，就特别费时。针对这种情况，适合于大规模团体施测的智力测验被发展起来。于是，编制了“陆军甲种”和“陆军乙种”团体智力测验，前者为文字测验，后者为非文字测验，适合于文盲及不能参加英文测验的外籍新兵。大战结束，这两个军用测验转为民用，之后出现了团体智力测验。3多项能力倾向测验的发展最初设计的大多数智力测验只测量了智力的某个方面，不能测量所有重要的智力功能，测验的实际应用

9、表明需要能够测量多项能力倾向的测验。因素分析理论和方法的发展，使成套多项能力倾向测验得以发展。这种测验不提供总分，而代之以各种特质的得分，如言语理解、数学能力倾向等。4标准化成就测验的发展20世纪初，桑代克等人运用心理测量原理，编制出评定学生书写、作文、拼读、算术、计算和推理的量表。随后，出现了一批用于测量学校教学成就的标准化成就测验。成就测验不仅应用于教育部门，而且也应用于工业部门和行政部门中的人员选拔。5人格测验的发展心理测验的另一个重要领域是性格、情绪状态、人际关系、动机、兴趣、态度等方面的人格特质的测量。660年代以后心理测验出现新的发展趋势信息加工心理学的兴起，测量界倾向

10、于将实验法和测验法相结合，产生信息加工测验；由于计算机技术的迅速发展，传统的纸笔测验逐渐被电脑程序测验所代替，从而大大提高了测验的效率；针对经典测验理论的某些缺陷，提出了一些新的测量理论，引起了领域出现了深刻的变革。第二节心理测验的性质一、心理测验的定义心理测验就是通过观察人的少数有代表性的行为，对于贯彻在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。二、心理测验的性质（一）间接性人的心理是无法直接测量，只能通过一个人对测验项目的反应来推论他的某种心理特质。（二）相对性用测验对心理进行测量，测验分数本身没有意义，只有通过和他人的比较才有意义。一个人的心理、行为也只有通过和

11、他所在的团体的大多数人的比较才能作出评价。（三）客观性客观性是对一切测量的基本要求。测验是测量心理的主要工具。测验的编制，施测评分、分数的解释都是经过标准化的。测验的标准化使测验结果尽可能不受主观因素的影响，以保证心理测量的客观性。第三节心理测验的种类一、按测验功能分类（一）能力测验能力测验分为普通能力测验和特殊能力测验。普通能力测验就是通常所说的智力测验即一般认知能力。特殊能力测验用于测量音乐、绘画、美术等方面的特殊才能。（二）成就测验测量人在接受某种正式教育或训练之后的学业成就。常见的是学科测验。（三）人格测验测量人在性格、气质、动机、态度、情绪等方面的个性心理特征。二、按测验对象

12、分类（一）个别测验一位主试在同一时间测量一个被试。优点：主试可对被试的言语、情绪状态进行仔细的观察，且有充分的机会与被试合作，结果较为可靠。缺点：费时测验程序复杂、主试需经过严格训练等。（二）团体测验一个或几个主试同时对较多被试施测。优点：省时，主试一般不必接受严格的专业训练即可担任。缺点：主试对被试的行为不易控制，结果不及个别测验可靠。三、按测验方式分类（一）纸笔测验测验所用的是文字或图形材料，被试用纸笔作答。优点：实施方便，团体测验多采用这种方式编制。缺点：容易受被试文化背景的影响。（二）操作测验测验所用的是非文字材料，如图片、仪器、实物、工具、模型等。被试通过指认、手工操作向主试提供答案

13、。优点：不受或少受文化背景的影响。缺点：费时多，不易团体实施等缺点。（三）口头测验测验材料为言语材料。主试口头提问，被试口头作答。（四）电脑测验测验项目为文字或图形，在电脑上显示，被试按键作答。四、按测验目的分类（一）描述性测验测验的目的在于对人的心理特质做出描述。（二）诊断性测验测验的目的在于对人的行为、心理问题进行诊断。（三）预示性测验测验的目的是根据被试现有的测验分数去预测其将来的表现和可能达到的水平。五、按测验难度分类（一）速度测验测题较容易，但数量较多，有严格的限时，测试被试在规定时间内做题的最快速度。（二）难度测验测验中包含各种难度不同的题目，其中有一些极难的题目，测题从易到难排

14、列，时间没有严格的控制，目的是测量被试解答难题的最高水平。六、按测验要求分类（一）最高作为测验要求被试尽其所能，测量他的最高限度。所有成就和能力测验都属此类。（二）典型作为测验只要求被试按通常的习惯方式反应，没有正确答案。许多人格测验、兴趣测验和态度测验就属此类。七、按测验的性质分类（一）构造性测验所呈现的刺激与被试的任务是明确的。（二）投射性测验所要测的东西不能明显地从题目中看出来，问题比较模糊，对被试的反应也没有明确规定。八、按测验解释分类（一）常模参照测验把被试分数与其他人比较就可以确定被试在所处的团体中相对位置。（二）标准参照测验将被试的测验分数与事先规定的某种标准比较，看被试是否达到

15、了事先规定的标准。第二章心理测验的编制内容简介本章主要介绍编制测验的一般程序以及测验项目的分析。本章的学习重点在于掌握编制测验的各个步骤；掌握项目难度和区分度的分析方法。学习难点在于拟定编制计划、设计测验项目以及项目分析。通过本章的学习，学习者应掌握测验编制的一般程序；掌握测验项目难度和区分度的概念和计算方法；掌握项目分析的特殊问题。第一节编制测验的一般程序对心理进行测量需要有测量工具，这种工具通常称测验。编制好的测验是实现心理测量的基本前提。不同性质、用途的心理测验，其编制的具体技术、过程和方法有所不同，但基本程序是一致的。一般要经过以下几个步骤：一、确定测验目的在编制测验之前，必须明确

16、测量的对象、目标和用途。明确测量的对象也就是要明确测验编成后用于测量什么样的个人或团体，即受测者的年龄、性别、职业、受教育程度、文化背景、民族等。明确测量的目标也就是要明确该测验要测量什么心理功能，是测能力、人格还是学绩，此外，还需把目标具体化。明确测量的用途也就是要明确所编的测验干什么用，是用于描述受测者的心理特质，还是用于诊断心理是否异常，抑或是选拔人员和预测。用途不同编制测验时的取材范围及测题难度也不尽相同。二、拟订编制计划编制计划即编制测验的总体构思。主要确定测验内容（测验内容应全面而具代表性，不致使测题偏离应测范围）和对各个内容点的相对重视程度（通常用百分比标明）。三、设计测验项

17、目（一）搜集有关资料。首先，资料要丰富，资料搜集齐全，这样测验内容便不致于有偏颇，而且能提高行为样本的代表性。其次，资料要有普遍性。尤其是成就测验，所选择的材料对测验对象要尽可能公平，即被试都有相等的学习机会。（二）选择项目形式。确定测验项目以什么形式呈现给受测者。测验项目的呈现形式取决于受测者的年龄、人数、测量的目的、测验项目的性质等因素。在选择项目形式时应考虑这些因素。（三）编写和修订项目。编写测验项目时要注意几个问题：测验项目的取样应对欲测的心理特质具有代表性；测验项目的取材范围要同编题计划所列项目范围相一致；项目的难度必须符合测验目的的需要；初编题目的数量要比最终所需的题数多一倍至几倍

18、，以备筛选和编制复本；测验项目的说明必须清楚。四、项目的试测和分析初选的项目虽然在内容和形式上符合要求，但是否具有适当的难度和区分度，必须通过试测进行测验项目分析，以便进一步修改。（一）项目的试测。测验项目的优劣应经过实际的试测来检验。在试测时应注意：试测对象应取自将来正式测验准备施测的群体；试测的情境应力求同正式测验的情境一致；试测的时限可稍宽些，最好使每个被试都能做完；施测者应对受测者的反应加以记录。如在同一时限内，一般被试所完成的题数，题意不清之处等，以便修改项目时参考。（二）项目分析。试测完成后，可以根据试测结果进行项目分析，项目分析主要确定测题的难度、区分度、备选答案的合适度等数量指

19、标。经过分析结果，再选择、编制出较好的测验。由于试测的样本小可能会存在取样误差，由此获得的项目分析结果未必完全可靠，需对来自同一总体的两个样本施测，然后分别进行项目分析，看两次分析结果是否一致。若相差较大，说明该项目的性能值得怀疑。五、合成测验合成测验就是把经过试测后通过项目分析证明性能优良的项目选出，加以适当编排，组合成测验。即要解决两个问题：项目选择和项目编排。（一）选择项目。应选择那些能够测量所要测量的东西的项目，项目的区分度要高，难度合适。不同性质的测验对难度要求不同，选拔性测验要求难度大些，人格测验则不要求难度。（二）项目编排。项目编排的一般原则：将测量相同因素的测题排列在一起；尽可

20、能将同一类的测题组合在一起；对整个测验项目的编排按由易到难的顺序，测验开头应有一、两个较容易的题目，被试易于做答，解除紧张情绪，建立信心，较快进入测验情境。在测验最后可有少数难度较大的题目，以测受试者的最高水平。具体编排常见有两种方式：（1）并列直进式是将整个测验按项目内容或形式分为若干分测验，每一分测验按难度从易到难排列。（2）混合螺旋式是将各种类型的测题依难度分成若干不同的层次，再将同等难度水平中不同性质和类型的题目组合在一起，作交叉式排列，难度渐次上升。其优点是可使被试对各类测题循环作答，从而维持兴趣。（三）编制复本。为增加实际的效用。有时一个测验需有等值的复本。复本的编制要符合

21、下列条件：测量的是同一种心理特质；测题的内容和形式相同但不应有重复；题型相同、数量相等并有大体相同的难度和区分度。先将所有题目按难度排列，采用下面的分法：A本：1、4、5、8、9、 12、 13 B本：2、3、6、7、10、11、 14 复本编好后，应再测验一次，以确定各份测验是否等值。六、测验的标准化测验的标准化是指测验的编制、实施、评分以及分数解释的程序的一致性。测验结果是否可靠有效主要取决于测验的标准化水平，测验的标准化，不但可以排除无关因素对测验结果的影响，保证测验数据的准确性与客观性，还能够对不同个体的测验不分数进行有效的比较。七、鉴定测验测验编好后，必须对其可靠性和有效性进行鉴定，

22、以便确定测验是否可用，对测验的鉴定主要是确定其信度和效度指标。八、编写测验手册测验手册是向测验使用者说明如何正确使用该测验。手册内容应包括测验的目的和功用、理论依据、测验内容、施测方法、时限、标准答案、评分标准、信度和效度资料、常模表。第二节测验项目的分析对测验项目的分析主要是对项目难度和区分度等进行分析。可帮助我们筛选和修订项目，提高测验的可靠性和有效性。一、项目的难度难度指测验项目的难易程度。测验的记分方法不同，项目难度的计算方法有所不同。（一）二分法记分项目难度的计算对于二分法记分的项目，如是非题、选择题等，答案只有对错两种可能的结果，其难度通常用通过率（P）来表示。即用答对该题人数的百

23、分比作为指标。P值越大，其难度越小。P= R/N (P 通过率，R 答对人数，N 总人数)当被试人数较多时，可用极端分组法，先将被试按测验总分从高到低排列，然后将总分最高的27的被试定为高分组，总分最低的27的被试定为低分组，分别计算两组在某一项目上的通过率，用下列公式计算难度：P=(PH+PL)/2 （PH 高分组的通过率，PL 低分组的通过率）例如，在370名被试中，选为高分组和的低分组被试各100人，其中高分组有70人答对第一题，低分组有40人答对第一题，则第一题的难度为：PH =70/100=0.7PL=40/100=0.4P=(PH+PL)/2=（0.7+0.4）/2 =0.55在选

24、择题中，猜测的成功率受项目备选答案数目的影响，备选答案数目越少，机遇的作用越大，为平衡机遇对难度的影响，需用下列公式进行校正：CP=(KP-1)/ (K-1) （CP为校正后的通过率，K为备选答案数目）（二）非二分法记分项目难度的计算对于非二分法记分的项目，如论述题、简单题等，每个项目不只是答对和答错两种可能结果，而是从满分到零分之间多种可能结果，对这类项目，其难度为所有被试在该题的平均得分除以该题的满分。二、项目的区分度项目的区分度指测验项目对不同被试心理特性的区分能力。区分度的计算方法有多种：（一）鉴别指数法这种方法较适合于二分法记分的项目。按测验总分高低将被试排队，从高分端和低分端各取2

25、7的被试作为高分组和低分组，计算每道题上高分组和低分组的通过率，二者之差就是鉴别指数（D）。DPHPL D值是鉴别项目测量有效性的指标，D值越高，项目越有效。美国测验专家伊贝尔根据长期的经验提出用鉴别指数评价项目性能的标准，见书P29表2-2。（二）相关法用鉴别指数分析项目区分度虽然易于理解，计算方便，但结果不精确。在大规模的或标准化的测验中，多采用相关法，即以某一项目分数与测验总分或效标分数的相关作为项目区分度的指标。1二列相关二列相关适用于两列连续变量，但其中一个变量被人为分成两类：及格和不及格、通过和未通过等。其计算公式见书30。2点二列相关点二列相关适用于项目是用二分法记分，而测验总分

26、或效标分数是连续变量的数据资料。其计算公式见书31页。三、区分度与难度的关系难度与区分度的关系有着密切的关系。项目的难度对项目的区分度有一定影响，难度越接近0.5，项目潜在的区分度越大。而越接近0或1，项目潜在的区分度越小。从理论上说，测验的所有项目难度都保持在0.5水平是最理想的，但在实际编制测验时，却不能要求所有项目的难度均为0.5。在选择项目时，应使项目的难度分布广一些，使整个测验的难度分布呈正态分布，并使难度的平均水平保持在0.5左右。才能更好地把各种水平的人区分开来。四、项目的特殊问题（一）选择题反应模式的分析选择题因能较有效地控制随机猜测导致的测量误差，且具有易于评分、能用计

27、算机阅卷等优点，在教育与心理测验中，有极其广泛的应用。选择题项目的分析，除了要分析其难度和区分度外，还应对被试的项目作答反应进行分析。可先将被试按测验总分从高到低排列，定出高分组（总分在前27的被试）和低分组（总分在后27的被试），然后从以下几个方面进行分析：1.如果正确备选答案被所有被试所选择，说明题目太容易或者题中可能提供了某种暗示。2.如果某个错误备选答案没有一个被试选择，说明该选项不具迷惑性，错得过于明显。一般来说，除非有2%以上的人选择，否则该备选答案应修改或删除。3.如果所有被试都选择了同一个错误选项，可能是编制测验时把错误答案高错了，也可能是在教学中发生了错误。4.如果高分组

28、和低分组被试的选择集中在两个答案上，二者选择率相近，说明该题可能本来就有两个正确答案或在某种意义上，选另一个答案也有到理。5.如果高分组对正确答案的选择率与低分组相等或更低，说明该题不具有鉴别力，应删除或修改。6.如果一个题目未作答的人数较多或选择各个备选答案的人数相等，说明该题可能过难或题意不清，被试无法作答或凭猜测作答。（二）标准参照测验的项目分析以上讨论的是常模参照测验的项目分析方法。但有些测验目的在于了解个体在测验内容上掌握的绝对水平而不是个体间的差异。这时需要采用另一种类型的测验即标准参照测验。标准参照测验的项目分析方法：1项目的难度分析难度一般以通过率来表示。标准参照测验的项目难度

29、分析并不重要，在大多数情况下只是作为项目区分度分析的基础。标准参照测验的目的是为了考察被试对某方面知识技能的掌握程度，只要能反映教育目标或教育者认为重要的内容，无论项目是难是易，均可以编入测验。2项目的区分度分析测验项目的区分度分析一般有3种方法第一种方法：先根据被试的测验总分是否达到某一标准把被试分成两组：达标组和未达标组，然后分别计算两组被试在某一项目上的通过率，二者之差即为该项目的区分度。D= Ps-Pn 该方法存在的问题是：分组标准不同，区分度值不同。第二种方法：用该测验对同一组被试在教学前后各测一次，分别计算各项目在前后测的通过率，二者之差即项目的区分度。D=Ppost-Ppre该

30、方法存在的问题是：同一测验前后施测两次可能会存在练习效应，成绩提高很难确定是教学还是练习的影响。第三种方法：选择两组被试，一组接受过同测验有关学科的教学，另一组没有接受过此类教学。两组施测同一测验。然后分别计算两组被试在某一项目上的通过率，二者之差即为该项目的区分度。 D= Pi-Pu 第三章测量的误差及其检验内容简介本章主要介绍测量的误差、测量的信度及测量的效度。本章的学习重点在于掌握测量误差的来源；信度和效度的种类及估计方法；影响信度和效度的因素以及提高测验信度和效度的方法。学习难点在于掌握各种信度和效度的估计方法。通过本章的学习，学习者应了解测量误差的概念、种类以及误差的来源；掌握信度和

31、信度的的概念、种类以及各种信度和效度的估计方法；了解影响信度和效度的因素以及如何根据这些影响因素来提高测验的信度和效度。第一节测量的误差一、测量误差的含义和种类误差是指在测量中由那些与测量目的无关的变化因素所产生的不准确或不一致的结果。测量误差有两种：随机误差和系统误差。随机误差是指那种由与测量目的无关的偶然因素引起的变化无规律的误差，使多次测量结果不一致，这种误差的方向和大小的变化完全是随机的。系统误差是指那种由与测量目的无关的因素引起的恒定而有规律的误差。二、测量误差的来源（一）测验自身。测验本身造成的误差主要来源于测验的编制过程，其中项目取样影响最大。测验所要测量的内容是什么，测验的项目

32、能否代表这些内容是至关重要的。题目用词模棱两可或叙述不清也都会带来误差。（二）施测过程。产生测量误差的原因主要是一些偶然的因素。比如，施测现场的温度、光线、声音、桌面好坏、空间阔窄等物理环境因素，主试者的年龄、性别、外表及其施测者时的言谈举止、表情动作、是否按规定实施测验等等也都会造成误差。（三）测验对象。造成测量误差的主要原因是受测量者真正水平是否得到正常发挥。一般地，受测量者的某种心理特质水平是相对稳定的，但是他在接受测量时的生理和心理状态会影响其水平的正常发挥。比如过分疲劳、焦虑、紧张等。如果他在进行测量时技能技巧方面经验不足，也同样会出现测量误差。此外，受测者应试动机的强弱、受训时间的

33、长短、受训内容的多少、答题反应的快慢等等都会产生测量误差。三、真分数在测量学中，真分数是指反映被试某种心理特质真正水平的那个数值。真分数是一个理论上构想出来的抽象概念，在实际测量中是无法得到的。因为任何一种测量，无论它有多么科学，总会存在误差。我们只能通过改进测量工具、完善操作方法等办法来使测量到的实的分数接近真分数。只要实得分数与真分数之间的误差不是太大，或者说误差被控制在可接受的范围之内，我们的测量也就可以看作是可接受的测量了。测量误差越小，实得分数越接近真分数，测验结果越可靠有效。信度和效度是检验测量误差大小的重要指标。信度反映测量结果受随机误差的影响大小。而效度则反映测量结果受随机误差

34、和系统误差二者影响的大小。信度和效度是衡量测验性能好坏的重要质量指标。所以在编制和使用测验时应特别重视测验的信度和效度。第二节测量的信度一、什么是信度信度指的是测量结果的可靠性或一致性的程度。二、信度的估计方法根据造成测量随机误差的来源不同，信度的估计方法也有多种多样。使用时要注意它的含义及适用范围。估计信度的主要方法有：（一）再测信度用同一测验对同一组被试前后施测两次，两次测验分数之间的相关系数为再测信度，再测信度反映的是两次测验结果有无变动，因此又称稳定性系数。其大小用皮尔逊的积差相关公式计算（见P43）。再测信度系数值较大说明两次测量结果较一致，测量工具比较稳定。使用再测信度的前提条

35、件：第一，所测量的心理特质必须是稳定的。第二，遗忘和练习的效果相同。第三，两次施测期间，被试在所要测查的心理特质方面没有获得更多的学习和训练。再测信度受再测间隔时间的影响，它随间隔时间增长逐渐减少。在报告一个测验的再测信度时，应说明两次施测的间隔时间。另外，选择再测的间隔时间也很重要。间隔时间不能太长，一般不超过6个月。幼儿比成人的再测间隔时间应更短。因为幼儿在一个月甚至更短的时间里，心理的变化是很大的。（二）复本信度用两个等值测验对同一组被试进行测量，两个等值测验分数之间的相关系数便为复本信度系数。其大小用皮尔逊的积差相关公式计算。所谓等值测验必须是符合相同规定，独立编制的测验，即两个测验

36、测量相同的心理特质且在题目素材、数量题型、难度、区分度等方面均能逐一匹配的测验。两个等值测验可以连续施测，也可以间隔一段时间施测。采用复本信度的前提条件是必须能编制出两个等值测验。（三）分半信度用一种测验施测，然后把测验分成两个等值的一半，所有被试在两半测验上得分的相关系数便为半分信度。由于计算出来的相关系数只是半个测验的相关系数，要得到整个测验的信度估计，还需用斯尔皮曼布朗公式加以校正（见P45）。使用斯尔皮曼布朗公式的前提条件是两个分半测验的方差必须相等。当两个半测验方差明显不等时，应采用弗朗那根或卢仑两个等价公式之一来估计半分信度。（公式见书45页、46页）计算半分信度时，首先遇到的问题

37、是如何把测验分成等值的两半。一般采用奇偶分半法。当测验项目按难度顺序排列时，奇偶分半就可以得到等值测验。使用奇偶分半法时应注意，一组项目涉及同一个问题，例如一组题目都与某段文章或某个图画有关，应把整组题目分在同一半，否则会高估信度值。（四）同质性信度同质信度又称内部一致性信度，是指测验中所有题目所测内容的一致性。（五）评分者信度在一些测验如投射测验、创造力测验中，主观题的评分依赖于评分者的判断，不同的评分者评判结果往往不一致。这也是产生测量误差的重要来源之一。因此有必要考虑评分者信度。评分者信度是指不同评分者对同一份测验评分的一致性。当测验结果是由评分者主观评定时，评分者信度尤为重要。在心理测

38、验中，评分者信度的计算，通常是随机抽取若干试卷，由至少两位受过训练的评分者按计分规则评分，然后计算它们的相关。相关越高即评分者信度越高，评分越一致，测验结果越可靠。若是2位评分者，可采用积差相关或等级相关方法求相关，若2位以上，就必须采用肯德尔和谐系数求相关。三、影响信度的因素信度是测验过程中随机误差大小的反映。随机误差大，信度就低，随机误差小，信度就高。因此，在测验过程中凡能引起测量随机误差的因素被试、主试、测量工具本身、施测情境等都会影响测验的信度。这些因素的影响在前面介绍测量误差的来源时已有所提到。除此之外，测验的长度、测题的难度及被试样本团体的性质也是重要的影响因素。一般来说

39、，测验的题数越多，信度值越高，因为测题数量多，题目取样范围广，可以改进题目取样的代表性，且随机误差可以相互抵消；测验难度适中即难度水平接近0.5，信度值越高。测验太难或太易，测验分数普遍偏低或偏高，测验分数的分布范围较窄，会降低信度；样本团体的异质性，样本团体中测验分数的分布及不同团体的平均水平也会影响信度。第三节测量的效度一、什么是效度效度是指测量结果的有效性，即一个测验对它所要测量的特性准确测量的程度。费兰士和米希尔将效度分为内容效度、构想效度和效标效度。二、内容效度内容效度是指测验的内容或行为范围取样的适宜程度。内容效度主要应用于成就测验。内容效度不适合用于能力倾向测验和人格测验。确

40、定内容效度的方法：1.专家判断法；2.复本法；3.再测法；4.经验法。三、构想效度构想效度是指测验对理论上的构想和特质的测量程度。构想是指心理学理论所涉及的抽象而属假设性质的概念或特质，如智力、焦虑、自我、外向、攻击性等等。确定构想效度的方法：1.测验内法；2.测验间法；3.效标关联法；4.实验操作法。四、效标效度（一）什么是效标效度效标效度指一个测验对处于特定情景中的个体的行为进行预测的有效性。在这里，被预测的行为是检验测验效度的标准，简称效标。好的效标测量应符合以下几个条件：1.效标测量必须真实反映观念效标的重要侧面。2.效标测量必须稳定可靠。3.效标测量必须客观，避免偏见。4.效标测量必

41、须尽可能简单，省时，花费少。根据搜集效标的时间，可以把效标效度分为称预测效度和同时效度。（二）效标效度的估计方法1.相关法；2.分组法；3.命中率法；4.功利率法五、影响效度的因素（一）测验本身测验本身主要包括项目数量和质量。（二）测验的实施（三）被试被试的身心特点，样本特点等。（四）效标第四章分数的合成与解释内容简介本章主要介绍分数合成的种类和方法，测验分数的解释。本章的学习重点在于掌握常模参照分数；测验分数的正确解释方法。学习难点在于用百分等级、Z分数、T分数、标准九分、离差智商、比率智商等常模分数来解释测验结果。通过本章的学习，学习者应了解分数合成的种类和方法以及各种方法的优缺点；掌握常

42、模参照分数和标准参照分数的含义、种类和确定方法；掌握常模团体的取样方法；懂得如何将原始分数转换为百分等级、线性标准分数、常态化的标准分数（如T分数、标准九分数等）；掌握测验分数的正确解释方法。第一节分数的合成一、分数合成的种类1.项目的组合每个测验是由许多独立的项目所组成。这些项目可以结合成小组，各小组的项目可以独立组合成量表或分测验，也有直接将所有项目得分合成一个测验总分。在这种情况下，总分均为个别项目得分的合成分数。2.分测验或量表的组合有些测验是由几个分测验或分量表所组成，每个分量表均有个分数，这些分数可以组合到一起得到一个合成分数（当然有时也可以不这样做），例如韦克斯勒成人智力量

43、表由言语量表与操作量表两部分构成，而言语部分包括6个分测验，其合成分数叫作言语智商，操作部分包括5个分测验，合成分数为操作智商，还可以将11个分测验总合成而得到总智商。3.测验或预测源的组合在作实际决定时，常常将几个测验或预测源同时使用，如前面所提的大学录取新生，就是将各科测验分数与其他成绩合成后作为录取的依据。又如美国雇佣服务中心，对申请者实施几个测验，测量9个因素，用来预测在各种职业上的成功，以上两例，均是测验使用者为了作出决策而将测验分数进行某种组合的。二、分数合成的方法在讨论各种分数合成方法时，将不区分是组合各个项目分数、分测验分数或测验分数，因为不论以何种单位分析，其原理是

44、一致的。由于测量目的和所用资料不同，组合方法既可以是统计的，也可以是推理或直觉的。（一）临床判断在实际工作中，最常用的组合测验分数的方法是根据经验对测验分数作直觉的组合，这就好比临床医生，把各种化验、检验所获得的资料与实际观察所得的结果结合起来，根据经验作出诊断一样。与此相似，一个教师或家长在帮助学生填报高考志愿，选择大学和学业时，根据该生的平时成绩、高考各科估分、兴趣爱好、专长性格及招生情况等各种因素，全面分析并作出判断。像这种根据直觉的经验，主观地将各种因素加权，而获得结论或预测的方法叫作临床诊断。临床诊断法的优点是：1.具有高度的综合性。它允许我们从整体上来考虑问题，充分考虑各测验所测特

45、质间交互影响，各测验上所得分数的对比关系与组合类型的结构特点，测验分数与实际反应表现其中的生动关系等。2.具有灵活的针对性，能就特定的个人作具体的结论。而一般的统计方法具有常模性，常模性的统计模式难于适应每个个体所具有的独特性。临床诊断法的缺点是：1.主观加权易受决策者的偏见影响，不够客观。2.缺乏精确的数量分析，没有精确的数量指标。3.判断者需要受过训练并具有丰富经验。（二）推理方法如果各个测验所测特质间有相互代偿作用，这些测验上的分数又是连续性资料，并能大体同时获得（如学生各种考试成绩），那么可以采用加权求和的方法对分数进行合成。1.单位加权单位加权就是将各测验分数直接相加而获得合成分

46、数，即：XcX1X2Xn Xc为合成分数, X1Xn为各分测验分数，以往高考总分就是采用这种方法将各科分数作单位加权而获得的。2.等量加权假如想将变量作等量加权，可以将所有测验分数转换为标准分数，然后采用下式加权组合。 ZcZ1Z2Zn (式中，Zc 为合成的标准分数， Z1，Z2为各分测验的标准分数。它适合于各测验对预测效标具有同等重要性的场合。（三）多重回归采用加权合成所得到的分数，是各个分测验分数的综合值，但在很多情况下，需要利用测验结果对预测效标作出估计。例如，根据高考各科成绩预测在大学一年级未的学业成绩等。此时，需对测验结果和效标测量作多重回归分析，求出效标估计与预测变量之间的数量关

47、系式。多重回归就是研究一种事物或现象与其他多种事物或现象在数量上相互联系和相互制约的统计方法，基本方程式为：Yab1X1b2X2bnXn式中Y 为预测效标分数；X1，X2，X3，Xn为各个预测源分数；b1，b2，bn为每个预测源的加权数；a为一常数，用来校正预测源与效标平均数的差异。将各预测源上的分数代入回归方程，便可以得到预测效标分数。从多重回归方程中可以看出，在一个预测源上的低分数可以由另一个预测源上的高分数来弥补。例如根据学生在言语测验（V）、数字测验（N）和推理测验（R）上的分数，来预测他在中学数学课的成绩（Y），通过多重回归分析得到回归方程：Y0.21V0.21N0.32R1.35

48、把该生的V、N和R的成绩代入方程就可以预测他的中学数学成绩Y。（四）多重划分用多元回归分析组合分数，适合于所测特质具有某种程度的互偿性，例如高考中某人某门功课较差，但可以通过其他几门获得高分而弥补缺失，使之可以录取。但实际生活中，有些所测特质之间是不能互相补偿的，例如招收飞行员，其中任何一项检测不合格者都不能录取。多重划分就是在各个特质上都确定一个标准，从而把成绩划分为合格与不合格两类，在一个测验上合格了，不能保证总的要求一定能合格。只有每个测验都合格时，总要求才算合格。如果有个人几乎在前面所有的测验上得出奇的高分，但在接下来的一次测验中得分低于规定的分数线时，他同样要被删掉。所以在整个

49、测验实施时，是把所有组成这一测验的分测验按一定顺序排列起来逐一实施。只有通过了前一次测验，才能继续实施后一个测验。当有一个测验的成绩被断定为不合格时，测验即停止，被试被视为不合格而予以淘汰。所以被试要想得到完全合格的结果，就必须使各个测验的分数均达到规定的分数。由于成功的被试必须越过一连串测验的栅栏，所以这种方法也叫作“连续栅栏”。采用多重划分的方法组合分数时，应该将最有效的预测源或测验放在前面，紧接着为第二个有效的测验，如此类推。这样就能保证整个逐步淘汰过程具有最优良的选择效率。采用多重划分方法，只决定接受或拒绝，每个被试只可放在其中一类别：达到最低标准与没有达到最低标准。因此，在通过连续

50、栅栏选择的被试之中，相互之间没有优劣之分，他们之间的差异被忽视了，若想区分他们之间水平的差异，必须用其他方法。以上介绍的几种常用的分数组合方法，在实际运用时，应注意合成方法的适用范围，合理使用。必要时，应将几种方法结合起来，并考虑到有关实际情况，寻求效果最佳且经济实惠的合成方案。对项目的合成和分测验的合成多使用的是加权法。加权法有等量加权和非等量加权，其中能力和知识类测验非等量加权用的比较多，而人格类测验中，等量加权用的比较多。非等量加权的权重确定有许多方法，常采用方法是经验判断法、多元回归分析、因素分析等。在用不同种类的测验分数合成预测分数来选拔人才时，若多项测验分数之间有互偿性，所谓的“

51、互偿性”是指某一测验上的低成绩可由其他测验上的优异成绩来补偿，主要使用多元回归分析、辨别函数分析等方法进行分数组合预测。若多项测验分数之间不具有互偿性时，可采用多重划分法组合分数进行预测。使用多重划分方法必须对每一个测验划个分数线，一个人只有在所有测验分数都上线，才能接受他，若其中有一个测验分数没上线，即不合格，他就要被淘汰。（五）合成分数的特殊方法在某些情况下需要采用一些特殊的方法来合成分数。1.完形记分所谓完形记分就是将各个变量看做一个整体，不是孤立地看每一个反应结果，而是看总的反应模式。在某些情况下，完形记分可以使效度增加。例如，对50名精神分裂症患者与50名正常被试施测两个是非题，假

52、如每一个组在每一个题目上都是一半人答是（T）一半人答否（f）将两题分别考虑则效度为零，因为每一个题目都不能把两组人区分开，将两题相加后所得的合成分数的效度将为零。然而，假如所有正常被试都以同样方式（或为TT或为FF回答这两题，而所有精神分裂患者对两题的反应却不一致（或为TF或为FT），这时，如果我们考虑总的反应模式，便能很好区分正常与患精神分裂症的被试。2.轮廓分析此方法与完形记分有些类似，主要是考虑被试在各个测验或量表上所得分数的轮廓，而不是将各个变量作简单的线性组合。前边讲过的临床判断实际上就是一种直觉的轮廓分析，考虑被试在各个变量上的最高分、最低分、总的水平高低，分数分布集中还是分散，

53、分布的形状以及其他各种因素，只不过对各因素的加权是主观的，并且有些是在潜意识中进行的。除这种直觉的分析外，还有一些较为客观的方法，如明尼苏达多相个性调查表中广泛使用的“高点”规则，就是一种轮廓分析，此种方法是将每个人在十个量表上的分数画成剖面图，然后根据一两对最高分数对他们进行分类，凡具有同样高分暗码的人，便具有相同的主要特征，如暗码27/72表示在量表2（抑郁症D）和量表7（神经衰弱Pt）分数高，这种人抑郁、焦急不安并有神经质。第二节分数的解释从测验中直接获得的分数，称为原始分数，它是通过将被试的反应与标准答案相比较而获得的。原始分数本身并不具有多大的意义，必须与一定的参照体系作比较，才

54、能显示其意义。可以确定原始分数意义的参照体系有两类：一是其他被试是的分数，即其他被试在所测特质上的一般水平；二是社会在所测特质上的客观要求，即被试在所测特质上发展应该达到的标准。第一种称为参照常模的分数解释。参照常模的分数解释方法是将被试的分数和常模团体测验分数进行比较来解释的，并且主要以个人在常模团体中所处的相对位置来说明。第二种是参照标准的分数解释。参照标准的分数解释方法是用被试测验分数与应有的标准作比较来确定被试测验分数的意义。凡达到要求的标准，就是“合格”或“达标”；未达到要求的标准，就是“不合格”或“未达标”，它全然不管其他被试在同一测验上的分数如何。一、常模参照分数常模参照分数是把

55、被试的测验分数与具有某种特征的人所组成的有关团体的一般水平作比较，以确定被试在该团体内的相对位置。这个用来比较的参照团体称常模团体（norm group），常模团体的分数分布叫常模，它是我们解释测验分数的基础。（一）常模团体常模团体由具有某种共同特征的人所组成的一个群体，或是该群体的一个样本。在确定常模团体时应注意的问题：1.群体构成的界限必须明确在确定常模团体时，必须清楚地说明所要测量的群体的性质与特征。虽然有关常模团体的一般规定取决于测验的目的与使用，且可能有多个常模团体，但对每个常模团体的性质和特征必须有一个简短而明确的描述，若群体过大，群体内部也许有许多小团体，它们在一个测验上的表现

56、也时常有差异，假如这种差异较为显著，就必须对每个小团体分别建立常模，例如，在机械能力倾向测验上，男性通常比女性做得好些，因此这类测验通常分别提供男性、女性的常模。2.常模团体必须是所测群体的一个代表性样本当所要测量的群体较小时，将所有的被试逐个测量以得到常模，在群体较大时，只能测量一部分被试作为群体的代表，此时就存在取样是否具有代表性的问题。如果常模团体缺乏代表性，将会使常模资料产生偏差，从而影响到测验结果解释的准确性。根据随机化原则抽样能确保样本具有代表性。关于具体抽样方法，可参阅有关统计学书中的抽样推断部分。3.取样的过程必须明确且有详尽的描述这主要是为了使测验的使用者不至于误用测验和错误

57、地解释测验结果，所以在一般的测验手册中，都有相当的篇幅详细介绍常模团体的大小、取样策略、取样时间以及其他有关情况，这些说明和描述越明确，越详尽越好。4.样本大小要适当所谓“大小适当”并没有明确的指标，根据统计学原理，取样误差与样本大小成反比。所以，在其他条件相同时，样本越大越好，但还应考虑到人力、物力等方面的因素，通常在决定样本大小时，应注意：总体的数目。总体数目小，样本相应可小一些，但不应过小，若总体过小，则可将全部被试入选；当总体较大时，相应的样本也大。一般最低不小于30或100。全国性常模，一般应有2000-3000人。群体的性质，如果群体性质单一，则样本不必太大，就可以反映群体

58、性质；若群体性质复杂，则样本容量就应大一些。测验结果的精确度，根据统计学原理，抽样误差的大小与样本容量成反比，若要提高精确度，减少抽样误差，就必须加人样本容量（n）。5.要注意常模的时间性由于当今教育发展迅速，所以建立的常模必须是近时的，过时的常模是不能作为参照标准的。例如对瑞文智力测验来说，几年以前所修订的常模对现今可能就不再适用，否则所得智商将产生偏高的趋势。常模必须定期修订。6.注意一般常模与特殊常模的结合测验手册上常模通常为一般常模，它的适用范围比较广，有时对于某些特殊的群体不一定完全适用。因此，测验在希望使用更为具体的，适合特殊情况的常模，即特殊常模。将特殊常模与一般常模结合起来，可

59、使被试与最接近的群体进行比较，因为各个具体群体在某些方面是独特的，它的成员将与测验手册所列的常模团体成员不符，所以，依据一般常模解释所得的结论可能不够恰当，如果将两者结合使用，解释分数便会更加准。但特殊常模只提供有关特殊信息，适用范围较窄，所得结论不能在广泛的背景作解释。（二）常模常模团体的分数分布叫常模，有了常模，我们就可以了解被试在常模团体中的相对位置，从而参照其他个体评价他的成绩。通常把常模分为发展常模和团体内常模两大类型。1.发展常模发展常模表示个体在正常发展线上心理特征处于什么样的发展水平。例如我们可以说一个8岁儿童具有10岁儿童的智力水平，也可以说一个四年级的学生具有五年级或三年

60、级阅读水平。常用的发展常模有以下三种：（1）智力年龄（mental age）比奈在本世纪初认为：测量儿童心理成长，可以将一个儿童的行为与各年龄水平的儿童比较，以获得该儿童的心理发展水平。在此设想基础上，他首先寻找并设计出可区分各种年龄儿章智力的题目，因为儿童在这些题目上的反应，随着年龄的变化而有系统的改变。每个题目放在大部分的儿童都能成功地完成的那个年龄水平。例如标准化样本中大多数8岁儿童都能的通过那项目，就代表8岁儿童的智力水平，将该题放在8岁水平，就每个年龄水平制定适当的题目，可以得到一个可评价儿童智力发展水平的年龄量表。一个儿童在年龄量表上所得的分数，就是最能代表他的智力水平的年龄

61、，这样的分数就称作智力年龄，简称智龄。所有的年龄量表基本上都是利用相同的推理与步骤制定的，年龄量表将个人的行为与各年龄组的一般儿童比较而给予一个年龄分数，问如，一个儿童能正确回答一般10岁儿童的题目，但对11岁的大部分题目回答不出，则该儿童的智龄为10。年龄常模最大的优点是易于理解与解释，并可以与同年龄团体作直接比较，但必须注意智商的单位不是保持恒定的，而是随着年龄增长而缩小的。例如在3岁和4岁之间的差异，就不等于15岁与16岁之间的差异，因为人在很多方面发展的速率是先快后慢并随着年龄的增长而逐渐减慢，当长到青春期或成年期，便逐渐停止，所以对于这部分被试，年龄常模便不再有任何意义。（2）年级当量（grade equivalents）教育成就测验上的分数进经常按照年级当量来解释，即将被试的测验成绩与某一年级的学生的平均分数作比较，以确定他相当于哪一年级的水平。这种年级当量选择题目与指定分数的方法与步骤与年龄常模类似，所不同的是用年级水平代替了年龄水平，例如，一个学生如果能解答六年级的题

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

人力资源总监必修《心理测量技术》

最新文档

相关资源

相关搜索