现代心理与教育统计学复习资料1

上传人:沈*** 文档编号:112283399 上传时间:2022-06-22 格式:DOC 页数:42 大小:261KB
收藏 版权申诉 举报 下载
现代心理与教育统计学复习资料1_第1页
第1页 / 共42页
现代心理与教育统计学复习资料1_第2页
第2页 / 共42页
现代心理与教育统计学复习资料1_第3页
第3页 / 共42页
资源描述:

《现代心理与教育统计学复习资料1》由会员分享,可在线阅读,更多相关《现代心理与教育统计学复习资料1(42页珍藏版)》请在装配图网上搜索。

1、第一章 心理及教育统计学根底知识1、数据类型 称名数据 计数数据 离散型数据 顺序数据 等距数据测量数据 连续型数据 比率数据2、变量、随机变量、观测值变量是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。用来表示随机现象的变量,称为随机变量。一般用大写的或表示随机变量。随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。、总体、个体与样本需要研究的同质对象的全体,称为总体。 每一个具体研究对象,称为一个个体。从总体中抽出的用以推测总体的局部对象的集合称为样本。样本中包含的个体数,称为样本的容量n。一般把容量n 30的

2、样本称为大样本;而n 30的样本称为小样本。、统计量与参数统计指标统计量参数平均数标准差S相关系数r回归系数b5、统计误差误差是测得值及真值之间的差值。测得值真值误差统计误差归纳起来可分为两类:测量误差及抽样误差。 由于使用的仪器、测量方法、读数方法等问题造成的测得值及真值之间的误差,称为测量误差。由于随机抽样造成的样本统计量及总体参数间的差异,称为抽样误差第二章 统计图表一、数据的整理在进展整理时,如果没有充足的理由证明某数据是由实验中的过失造成的,就不能轻易将其排除。对于个别极端数据是否该剔除,应遵循三个标准差法那么。 二、 次数分布表一简单次频数分布表二相对次数分布表将次数分布表中各组的

3、实际次数转化为相对次数,即用频数比率fN或百分比 来表示次数,就可以制成相对次数分布表三累加次数分布表四双列次数分布表双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。 所谓有联系的两列变量,一般是指同一组被试中每个被试两种心理能力的分数或两种心理特点的指标,或同一组被试在两种实验条件下获得的结果。 三、次数分布图使一组数据特征更加直观与概括,而且还可以对数据的分布情况与变动趋势作粗略的分析。简单次频数分布图直方图、次数多边形图累加次数分布图累加直方图、累加曲线一简单次数分布图直方图二简单次数分布图次数多边图次数分布多边形图 是一种表示连续性随机变量次数分布的线形

4、图,属于次数分布图。但凡等距分组的可以用直方图表示的数据,都可用次数多边图来表示。绘制方法:以各分组区间的组中值为横坐标,以各组的频数为纵坐标,描点;将各点以直线连接即构成多边图形。三累加次数分布图累加直方图四累加次数分布图累加曲线四、其他统计图表条形图:用直条的长短来表示统计工程数值大小的图形,主要是用来比拟性质相似的连续型资料。 圆形图:是用于表示连续型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成局部所占的比例。各局部的比例一般用百分比表示。线形图用来表示连续型资料。它能表示两个变量之间的函数关系;一种事物随另一种事物变化的情况;某种事物随时间推移的开展趋势等。基

5、于线形图,既可对有关统计变量进展数量比拟,又可分析开展的趋势。 散点图是用一样大小圆点的多少或梳密表示统计资料量大小以及变化趋势的图。第三章 集中量数集中量数用来表现数据资料的典型水平或集中趋势 。 常用的集中量包括算术平均数、加权平均数、中位数与众数等等。 一、算术平均数算术平均数 一般简称为平均数或均数、均值。一般用,或者用表示。算术平均数是最常用的集中量一算术平均数的计算公式二算术平均数的意义算术平均数是应用最普遍的一种集中量。它是“真值 的最正确估计值。真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响,真值往往很难得到。在实际测量中,往往采用“屡次测量,取平均数的

6、方法,用平均数去估计真值。三算术平均数的优缺点 优点:反响灵敏、有公式严密确定、简明易懂、适合代数运算缺点:容易受两极端数值的影响;一组数据中有模糊不清的数值时无法计算。四计算与应用算术平均数的原那么同质性原那么:算术平均数只能用于表示同类数据的集中趋势。平均数及个体数值相结合的原那么:在解释个体特征时,既要看平均数,也要结合个体的数据。平均数及标准差、方差相结合原那么:描述一组数据时既要分析其集中趋势,也要分析离散程度。二、中位数中位数又称为中数,是按顺序排列的一组数据中位于中间位置的数。中位数是常用集中量的一种。一般用或表示一中位数的计算方法1、原始数据计算法一组数据中无重复数值的情况首先

7、将一组数据按顺序排列2、次数分布表计算法公式中为中位数所在组的准确下限 为中位数所在组下限以下的累积频数 n为数据总与 为中位数所在组的频数 i为组距二中位数的特点及应用中位数是根据全部数据的个数来确定其位置的,意义简明,对按顺序排列的数据来讲,计算中位数也比拟容易。中位数不受两端极端数据的影响,但反响不灵敏,也不适合进一步代数运算的要求。一般用于以下情况:1、一组数据中有极端数据时;2、一组数据中有个别数据不确切、不清楚时;3、资料属于等级性质时。三众数众数用表示,有两种定义:理论众数是指及频数分布曲线最高点相对应的横坐标上的一点;粗略众数是一组数据中出现次数最多的那个数。众数也是一种集中量

8、,也可用来表示一组数据的集中趋势。众数的计算方法观察法寻找粗略众数 未分组数据中出现次数最多的数即为众数。次数分布表中,频数最多那一组数据的组中值,即为众数。四、算术平均数、中位数、众数三者的关系在正态分布中:在正偏态分布中:在负偏态分布中:五、其它集中量数一加权平均数加权平均数是不同比重数据或平均数的平均数,一般用 表示。其计算公式有两种: 二几何平均数几何平均数 是n个数值连乘积的n次方根,用或表示。计算公式为:当数据的分布呈偏态时,可用几何平均数表示该组数据的集中趋势。几何平均数的变式 两边取对数,得注意:几何平均数计算的是平均的变化情况,如果要计算平均增长率,需要从几何平均数中减去基数

9、1。几何平均数的应用:有少数极端数据,数据呈偏态分布;心理物理学中的等距及等比量表实验中.例3-8P72按一定比例变化的一列数据,一般用来求平均变化率如平均增长率.例3-93-103-11P73三调与平均数调与平均数( ),用符号表示.也叫倒数平均数.公式为:调与平均数的应用学习速度方面的问题.调与平均数在描述速度方面的集中趋势时,优于其他集中量在有关研究学习速度的实验设计中,反响指标一般常取两种形式;1、工作量固定,记录各被试完成一样工作所用的时间.例3-133-14P762、学习时间一定,记录一定时间内各被试完成的工作量,例3-15第四章 差异量数 描述数据离散程度的统计量称为差异量。差异

10、量越大,说明数据越分散、不集中;差异量越小,说明数据越集中,变动范围越小。 一组数据的离散程度,常常通过数据的离中趋势特点进展分析。一、全距、四分位距与百分位距一全距 R 全距是一组数据中的最大值及该组数据中最小值之差,又称极差。R二百分位差百分位距 百分位差是指两个百分位数之差。常用的百分位距有两种:用几个百分位距能较好地反映一组数据的差异程度。 对于任何一组观察值,只要任意指定一个位置,就可以求出这个位置的数应该是多少;百分位数相反,如果给出一个数,也可以求出它应该在哪个位置百分等级百分位数频数分布中相对于某个特定百分点的原始分数,它说明在分布中低于该分数的个案占总频数的百分比。 百分等级

11、分数频数分布中低于特定原始分数的频数百分比。三四分位距四分位距是第一个四分位数及第三个四分位数之差的一半,计算公式为四平均差平均差 或者 是指一组数据中,每一个数据及该组数据的平均数离差的绝对值的算术平均数,通常用或表示。原始数据计算公式五方差与标准差方差又称为变异数、均方。是表示一组数据离散程度的统计指标。一般样本的方差用 表示,总体的方差用 表示。标准差 是方差的算术平方根。一般样本的标准差用 S 表示,总体的标准差用 表示。标准差与方差是描述数据离散程度的最常用的差异量。1、样本方差及标准差定义公式2、总体方差及标准差的定义公式 是总体的无偏估计3、原始数据的方差及标准差计算4、总标准差

12、的合成 方差具有可加性的特点。当几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。需要注意的是,只有在应用同一种观测手段,测量的是同一种特质,只是样本不同的数据时,才能计算合成方差或标准差。计算公式 公式中: 为总方差, 为总标准差 为各小组标准差 为各小组数据个数 5、方差与标准差的性质方差是对一组数据中各种变异的总与的测量,具有可加性与可分解性特点。标准差是一组数据方差的算术平方根,它不可以进展代数计算,但有以下特性:如果 那么如果 那么6、方差与标准差的意义方差及标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。标准差具备一个良好的差异量应具备

13、的条件,如:反响灵敏,有公式严密确定,简明易懂,适合代数运算等等。应用方差与标准差表示一组数据的离散程度,须注意必须是同一类数据即同一种测量工具的测量结果,而且被比拟样本的水平比拟接近。7、标准差的应用/差异系数差异系数 是指标准差及其算术平均数的百分比,它是没有单位的相对数。常以表示,其计算公式为 :差异系数的作用: 比拟不同单位资料的差异程度 比拟单位一样而平均数相差较大的两组资料的差异程度可判断特殊差异情况 8、标准差的应用标准分数又称基分数或Z分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。离平均数有多远,即表示原始分数在平均数以上或以下几个标准差的位置,从而明确

14、该分数在团体中的相对地位的量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。 1标准分数的计算公式及其性质没有实际单位;可正可负,可为零;一组原始数据中,各个Z分数的标准差为1;正态分布的原始数据,转换得到的Z分数是标准的正态分布0,1。2Z分数的作用分数可以说明原始分数在团体中的相对位置,因此称为相对位置量数。把原始分数转换成分数,就把单位不等距的与缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。3标准分数的优点l 可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。l 可加性:标准分数使不同的原始分数具有一样的参照点

15、,因而具有可加性。l 明确性:标准分数较原始分数的意义更为明确。l 合理性:标准分数保证了不同性质的分数在总分数中的权重一样,使分数更合理地 反映事实。第五章 相关分析 一、相关概述 一相关的概念 两个变量之间不准确、不稳定的变化关系,称为相关关系。两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。两个变量之间的变化方向有: 正相关:两个变量的变化方向一样。 负相关:两个变量的变化方向相反。 零相关:两个变量的变化方向无一定规律。从关系密切程度来看,两个变量的变化程度可大致分为 完全相关:两个变量的变化程度完全一致。 强相关:两个变量变化的一致性比拟强。 中等相关:两个变量变化的

16、一致程度中等。 弱相关:两个变量变化的一致性比拟差。 完全不相关:两个变量变化程度没有一致性。二相关系数用来描述两个变量相互之间变化方向及密切程度的统计指标称为相关系数,一般样本的相关系数用r表示,总体的相关系数用表示。 相关系数的取值: -1 r +1 0r1 相关系数的符号:“表示正相关,“表示负相关。相关系数的性质相关系数不是由相等单位度量而来的,因此只能比拟大小,不能做任何加、减、乘、除运算。二、积差相关一积差相关及其适用条件积差相关是英国统计学家皮尔逊于20世纪初提出的一种计算相关的方法,因而被称为皮尔逊积差相关,也称为积矩相关 。积差相关适用于:1、两个变量都是连续数据;两变量总体

17、都为正态分布;两变量之间为线性关系。2、成对数据,样本容量要大。积差相关条件的判断方法:连续变量:根据得到数据的方式判断,测量数据。正态分布:一般情况下,正常人群的身高、体重、智力水平、心理及教育测验的结果,都可按总体正态分布对待;如果要求比拟高,那么需要对数据进展正态性检验。线性关系:根据相关散布图可判断两个变量之间是否线性关系。二相关系数的等距转换及其合并相关系数不是等距数据,更不是比率数据,它只能比拟相对大小,不能进展加减乘除运算。但我们常会遇到需要将取自同一总体的几个样本的相关系数合成、求平均的相关系数这一问题。这时,可以先将相关系数r转换成具有等距单位的值。三、斯皮尔曼等级相关等级相

18、关 是指以等级次序排列或以等级次序表示的变量之间的相关。主要包括斯皮尔曼二列等级相关与肯德尔与谐系数 多列等级相关。 一斯皮尔曼等级相关的概念及适用条件斯皮尔曼等级相关是等级相关的一种。它适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30。当连续数据不能满足计算积差相关的条件时,可以转换成等级数据从而计算斯皮尔曼等级相关系数。四、肯德尔与谐系数 肯德尔等级相关方法有许多种,肯德尔与谐系数是其中一种。 肯德尔与谐系数常以r表示,适用于多列等级变量的资料。 肯德尔与谐系数可以反映多个等级变量变化的一致性。肯德尔U系数及W系数的适用资料一样。五、质及量的相

19、关 一点二列相关适用条件一个变量为正态、连续变量,另一个变量为真正的二分名义变量,这两个变量之间的相关,称为点二列相关 。有时一个变量并非真正的二分变量,而是双峰分布的变量,也可以用点二列相关来表示。多用于评价是非类测验题目组成的测验内部一致性。 二二列相关两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量,表示这两个变量之间的相关,称为二列相关 。 将连续变量人为划分为二分变量时,应注意尽量使分界点接近平均数。教育或心理测验中问答题的区分度指标。六、品质相关两个变量都是按性质划分成几种类别,表示这两个变量之间的相关称为品质相关。品质相关处理的一般是计数数据而不是连续数据,变量划分为

20、不同的品质类别,主要用于双向表或称为列联表RC表。品质相关的方法有多种,最常用的是四分相关、相关与列联表相关。第六章 概率分布一、概率的定义一根本概念概率:说明随机事件可能性大小的客观指标。概率的两种定义:后验概率与先验概率。后验概率或统计概率 随机事件的频率:当n无限增大时,随机事件A的频率会稳定在一个常数P,这个常数就是随机事件A的概率。先验概率古典概率古典概率模型要求满足两个条件: 试验的所有可能结果是有限的; 每一种可能结果出现的可能性相等。二概率的公理系统1任何随机事件的概率都是在0及1之间的正数,即 0 PA12不可能事件的概率等于零,即 PA= 0 3必然事件的概率等于1,即 P

21、A= 1 三概率分布类型概率分布 是指对随机变量取不同值时的概率的描述,一般用概率分布函数进展描述。依不同的标准,对概率分布可作不同的分类。、离散型分布及连续型分布依随机变量的类型,可将概率分布分为离散型概率分布及连续型概率分布。心理及教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。 、经历分布及理论分布依分布函数的来源,可将概率分布分为经历分布及理论分布。 经历分布 是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。 理论分布 是按某种数学模型计算出的概率分布。 、根本随机变量分布及抽样分布依所描述的数据的样本特性,可将概率分布分为根本随机变量分布及抽样分

22、布 。 根本随机变量分布是随机变量各种不同取值情况的概率分布,抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。二、概率分布正态分布一正态分布特征正态分布 也称为常态分布,是连续型随机变量概率分布的一种,是在数理统计的理论及实际应用中占有最重要地位的一种理论分布。 1正态分布曲线函数正态分布曲线函数又称概率密度函数,其一般公式为:公式所描述的正态曲线,由与两个参数决定。2、正态分布的性质 正态分布是以 为中心的对称分配。 正态分布有 2 个参数: m (平均数)以及 s (标准差) ,其决定了分配的位置及形状。 正态分布曲线下面的面积总与等于1。 正态分布 在 时有一转折点。 正态分布曲

23、线的两尾无限延伸。 正态分布是一族曲线,标准正态分布是一条曲线。3、标准正态分布曲线将标准分数代入正态曲线函数,并且,令1,那么公式变换为标准正态分布函数:标准正态分布曲线的特点曲线在处到达最高点曲线以处为中心,双侧对称曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不及基线相交。标准正态分布曲线的平均数为,标准差为。从3至3之间几乎分布着全部数据。曲线的拐点为正负一个标准差处。4、正态分布表的使用 Z值求概率求0至某一值之间的概率:直接查表求两个值之间的概率 两值符号一样:1Z221 两值符号相反:1Z221求某一Z值以上的概率 Z0时,0.5 Z0时,0.5求某一Z值以下的概率 Z0时,P

24、Z0.5 Z0时,PZ0.5面积概率求Z值求Z0以上或以下某一面积对应的Z值:直接查表求及正态曲线上端或下端某一面积P相对应的Z值:先用0.5,再查表求及正态曲线下中央部位某一面积相对应的Z值:先计算P2,再查表概率或Z值,求概率密度Y直接查正态分布表就能得到相应的概率密度值。如果由概率求值,要注意区分概率是位于正态曲线的中间局部,还是两尾端局部,才能通过查表求得正确的概率密度。三、概率分布二项分布一二项试验及二项分布二项分布 是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。1二项试验满足以下条件的试验称为二项试验: 一次试验只有两种可能的结果,即成功与

25、失败; 共有n次试验,并且n是预先给定的任一正整数; 各次试验相互独立,即各次试验之间互不影响; 各次试验中成功的概率相等,失败的概率也相等。2二项分布函数 二项分布是一种离散型随机变量的概率分布。 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数X0,1的概率分布,叫做二项分布函数。二项展开式的通式即二项分布函数:3、二项分布的平均数与标准差 如果二项分布满足pq且 5或者pq且 5时,二项分布接近于正态分布。可用下面的方法计算二项分布的平均数与标准差。 二项分布的平均数为: 二项分布的标准差为:4、二项分布的应用二项分布函数除了用来求成功事件恰好出现X次的概率之外,

26、在教育中主要用来判断试验结果的机遇性及真实性的界限。 四、概率分布样本分布一、抽样分布区分三种不同性质的分布: 总体分布:总体内个体数值的频数分布 样本分布:样本内个体数值的频数分布 抽样分布:某一种统计量的概率分布1. 抽样分布的概念抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。抽样分布是一个理论的概率分布,是统计推断的依据。2平均数抽样分布的几个定理 从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。容量为n的平均数在抽样分布上的标准差即平均数的标准误,等于总体标准差除以n的平方根。从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。虽然

27、总体不呈正态分布,如果样本容量较大,反映总体与的样本平均数的抽样分布,也接近于正态分布。二标准误某种统计量在抽样分布上的标准差,称为标准误。标准误用来衡量抽样误差。标准误越小,说明样本统计量及总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。 平均数标准误的计算1总体正态,不管样本容量大小,或总体非正态,大样本平均数的标准误为:2总体正态,未知不管样本容量大小,或总体非正态,未知,大样本平均数标准误的估计值为:三平均数离差统计量的分布1总体正态,不管样本容量大小,或总体非正态,大样本平均数离差的的抽样分布呈正态分布 正态总体,样

28、本平均数的抽样分布2总体正态,未知不管样本容量大小,或总体非正态,未知,大样本平均数离差的的抽样分布呈t分布t分布的特点形状及正态分布曲线相似t分布曲线随自由度不同而有一簇曲线自由度的计算:自由度是指能够独立变化的数据个数。查t分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。3总体未知,大样本时的近似处理样本容量增大后,平均数的抽样分布接近于正态分布,可用正态分布近似处理:第七章 参数估计一、点估计、区间估计及标准误一总体参数估计的根本原理 根据样本统计量对相应总体参数所作的估计叫作总体参数估计。 总体参数估计分为点估计与区间估计。 由样本的标准差估计总体的标准差即为点估

29、计;而由样本的平均数估计总体平均数的取值范围那么为区间估计。二点估计1、良好的点估计量应具备的条件 无偏性 如果一切可能个样本统计量的值及总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量。 有效性 当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。 一致性当样本容量无限增大时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。 充分性一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。2、点估计量的缺点有偏差没有提供正确估计的概率,即不能提供估计值及参数真值的接近程度与可靠程度三区

30、间估计区间估计可以解决这个问题。区间估计得出的不是一个单一数值,而是一个数值区间。它既可以告诉我们参数的真值在什么范围内,又能告诉我们参数的真值落在这个范围的概率有多大。区间估计的根底抽样分布 根据抽样分布的特点及原理,不同总体条件下,可能会有不同的抽样分布,那么可得到不同条件下总体参数的区间估计的计算方法。 区间估计涉及与置信区间与显著性水平。1、区间估计以样本统计量的抽样分布概率分布为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。对总体参数值进展区间估计,就是要在一定可靠度上求出总体参数的置信区间的上下限。 要知道及所要估计的参数相对应的样本

31、统计量的值,以及样本统计量的理论分布; 要求出该种统计量的标准误; 要确定在多大的可靠度上对总体参数作估计,再通过某种理论概率分布表,找出及某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间的上下限。 置信区间 置信度,即置信概率,是作出某种推断时正确的可能性概率。 置信区间,也称置信间距 是指在某一置信度时,总体参数所在的区域距离或区域长度。置信区间是带有置信概率的取值区间。显著性水平 对总体平均数进展区间估计时,置信概率表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。显著性水平( )就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号表示。 P-2、平

32、均数区间估计的根本原理通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体(或非正态总体中的n30的样本),而计算出来的实际平均数是无数容量为n的样本平均数中的一个。根据样本平均数的分布理论,可以对总体平均数进展估计,并以概率说明其正确的可能性。三、总体平均数的估计一总体平均数的区间估计1总体平均数区间估计的根本步骤根据样本的数据,计算样本的平均数与标准差;计算平均数抽样分布的标准误;确定置信概率或显著性水平;根据样本平均数的抽样分布确定查何种统计表;计算置信区间;解释总体平均数的置信区间。2平均数区间估计的计算总体正态,不管样本容量大小,或总体非正态,大样本样本平均

33、数的分布呈正态,平均数的置信区间为:总体正态,未知不管样本容量大小,或总体非正态,未知,大样本样本平均数的分布为t分布,平均数的置信区间为:总体正态,未知,大样本 平均数的抽样分布接近于正态分布,用正态分布代替t分布近似处理: 总体非正态,小样本 不能进展参数估计,即不能根据样本分布对总体平均数进展估计。第八章 假设检验一、假设检验的原理一、假设检验的根本原理 利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保存的决断,称为假设检验。1、假设假设检验一般有两互相对立的假设。 H0:零假设,或称原假设、虚无假设 、解消假设;是要检验的对象之间没有差异的假设。 H1:备择假设 ,或

34、称研究假设、对立假设;是及零假设相对立的假设,即存在差异的假设。进展假设检验时,一般是从零假设出发,以样本及总体无差异的条件计算统计量的值,并分析计算结果在抽样分布上的概率,根据相应的概率判断应承受零假设、拒绝研究假设还是拒绝零假设、承受研究假设。2、小概率事件样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了。把出现概率很小的随机事件称为小概率事件。当概率足够小时,可以作为从实际可能性上,把零假设加以否认的理由。因为根据这个原理认为:在随机抽样的条件下,一次实验竟然抽到及总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。3、

35、显著性水平 统计学中把拒绝零假设的概率称为显著性水平,用表示。 显著性水平也是进展统计推断时,可能犯错误的概率。 常用的显著性水平有两个:0.05 与 0.01。 4假设检验中的两类错误及其控制对于总体参数的假设检验,有可能犯两种类型的错误,即错误与错误。 假设检验中的两类错误H0为真H0为假拒绝H0错误正确承受H0正确错误两类错误实际情况H0正确H0错误研究结论拒绝H0型错误正确承受H0正确型错误结论1两类错误既有联系又有区别a错误只在否认H0时发生 b错误只在承受H0时发生a错误增加 b 错误减小b错误增加 a 错误减小2n , s2 可使两类错误的概率都减小. 为了将两种错误同时控制在相

36、对最小的程度,研究者往往通过选择适当的显著性水平而对错误进展控制,如0.01。 对错误,那么一方面使样本容量增大,另一方面采用合理的检验形式即单侧检验或双侧检验来使误差得到控制。在确定检验形式时,但凡检验是否及假设的总体一致的假设检验,被分散在概率分布曲线的两端,因此称为双侧检验。双侧检验的假设形式为:H0:0, H1:0但凡检验大于或小于某一特定条件的假设检验,是在概率分布曲线的一端,因此称为单侧检验。单侧检验的假设形式为: H0:0,H1:0或者 H0:0,H1:05假设检验的根本步骤一个完整的假设检验过程,一般经过四个主要步骤:提出假设选择检验统计量并计算统计量的值确定显著性水平做出统计

37、结论二、平均数的显著性检验一总体平均数的显著性检验总体平均数的显著性检验是指对样本平均数及总体平均数之间的差异进展的显著性检验。假设检验的结果差异显著,可以认为该样本不是来自当前的总体,而来自另一个、及当前总体存在显著差异的总体。即,该样本及当前的总体不一致。1总体平均数显著性检验的原理检验的思路是:假定研究样本是从平均数为的总体随机抽取的,而目标总体的平均数为0,检验及0之间是否存在差异。如果差异显著,可以认为研究样本的总体不是平均数为0的总体,也就是说,研究样本不是来自平均数为0的总体。 2总体平均数显著性检验的步骤一个完整的假设检验过程,一般经过四个主要步骤:提出假设选择检验统计量并计算

38、统计量的值确定显著性水平做出统计结论.提出假设 双侧检验的假设形式为:H0:0, H1:0 单侧检验的假设形式为:H0:0,H1:0 左侧检验或者 H0:0,H1:0 右侧检验选择检验统计量并计算结果直接应用原始数据检验假设是有困难的,必须借助于根据样本构造出来的统计量,而且针对不同的条件,需要选择不同的检验统计量。确定显著性水平在假设检验中有可能会犯错误。如果零假设是正确的,却把它当成错误的加以拒绝,就会犯错误。 表示做出统计结论时犯错误的概率,称为显著性水平。显著性水平一般为0.05与0.01。做出统计结论根据已确定的显著性水平,查统计量的分布表,找到该显著性水平时统计量的临界值,并以计算

39、得到的统计量值及查表得到的临界值比拟,根据统计决断规那么做出拒绝或承受零假设的决定。3平均数显著性检验的几种情形总体为正态,总体标准差平均数的抽样分布服从正态分布,以为检验统计量,其计算公式为:例:某小学历届毕业生汉语拼音测验平均分数为66分,标准差为11.7。现以同样的试题测验应届毕业生假定应届及历届毕业生条件根本一样,并从中随机抽18份试卷,算得平均分为69分,问该校应届及历届毕业生汉语拼音测验成绩是否一样?解:H0:0, H1:0学生汉语拼音成绩可以假定是从正态总体中抽出的随机样本。总体标准差,样本统计量的抽样分布服从正态,以Z为检验统计量显著性水平为=0.05,双侧检验查表得Z结论:该

40、校应届毕业生及历届毕业生汉语拼音测验成绩一致,没有显著差异。双侧Z检验统计决断规那么Z及临界值比拟 P值 显著性 检验结果 Z1.96不显著保存H0,拒绝H11.96Z显著在0.05显著性水平拒绝H0,承受H1ZP极其显著在0.01显著性水平拒绝H0,承受H1单侧Z检验统计决断规那么Z及临界值比拟 P值 显著性 检验结果 Z1.65不显著保存H0,拒绝H11.65Z显著在0.05显著性水平拒绝H0,承受H1ZP极其显著在0.01显著性水平拒绝H0,承受H1总体为正态,总体标准差未知,样本容量小于30平均数的抽样分布服从t分布,以t为检验统计量,计算公式为:例:某区初三英语统一测验平均分数为65

41、,该区某校20份试卷的平均分数为69.8,标准差为9.234。问该校初三年级英语平均分数及全区是否一样?总体标准差未知,样本容量大于30平均数的抽样分布服从t分布,但由于样本容量较大,平均数的抽样分布接近于正态分布,因此可以用Z代替t近似处理,计算公式为:总体非正态,小样本不能对总体平均数进展显著性检验。三、平均数差异的显著性检验平均数差异显著性检验的统计量及计算公式一两总体正态,两总体方差 总体方差条件下,平均数之差的抽样分布服从正态分布,以作为检验统计量,计算公式为: 1两样本独立2两样本相关两样本相关的判断:两个样本的数据之间存在着一一对应的关系时,称两样本为相关样本。常见的情形主要包括

42、三种:一是同一组被试在前后两次在同一类测验上的结果;二是同一组被试分别承受两种不同实验的测验结果;三是按条件一样的原那么选择的配对实验结果。例1:某幼儿园在儿童入园时对49名儿童进展了比奈智力测验(=16),结果平均智商为106。一年后再对同组被试施测,结果平均智商分数为110。两次测验结果的相关系数为0.74,问能否说随着年龄的增长与一年的教育,儿童智商有了显著提高?解:H0:12 H1: 12 正常儿童的智力测验结果,可以认为是从正态总体中随机抽出的样本。总体标准差,而同一组被试前后两次的测验成绩,属于相关样本。因此平均数之差的抽样分布服从正态分布,应选用作检验统计量,并选择相关样本、总体

43、标准差的计算公式。提示:1216显著性水平为结论:可以说随着年龄的增长与一年的教育,儿童智商有了显著提高。二两总体正态,两总体方差未知总体方差未知条件下,平均数之差的抽样分布服从t分布,以t作为检验统计量,计算公式为:1两样本独立,两总体方差一致方差齐性检验方差齐性检验是对两总体方差是否齐性即是否一致或是否存在显著性差异进展的检验。方差齐性检验的统计量是,其概率分布遵循分布。假设从方差一样的两个正态总体中,随机抽取两个独立样本,以此为根底,分别求出两个相应总体方差的估计值,这两个总体方差的估计值的比值称为F比值,其计算公式为实际应用中,常需以样本方差估计总体方差,因此公式为当两样本容量相差不大

44、时,上式可简化为2、两样本独立,两总体方差不齐性对于方差不齐性的独立样本,平均数差异的显著性可能由两方面的原因造成:一是两平均数确实存在显著差异;二是两总体方差之间存在显著差异。当两总体的方差之间差异显著时,运用一般的t检验不准确,需要进展特别的检验。 总体方差不齐性的两个独立样本平均数之差的标准误,可用两个样本方差分别估计出的两个平均数标准误平方之与再开方来表示。这时样本平均数之差及相应总体平均数之差的离差统计量,既不是Z分布,也不是t分布,而是及t分布相近似的t分布。 这种检验方法被称为柯克兰柯克斯t检验,其统计量的计算公式为 t临界值的计算公式3总体方差未知,独立样本与相关样本三两总体非

45、正态,n1与n2大于30或50总体标准差未知条件下,平均数之差的抽样分布服从t分布,但样本容量较大,t分布接近于正态分布,可以以近似处理,因此以Z作为检验统计量,计算公式为: 两样本相关两样本独立四总体非正态,小样本不能对平均数差异进展显著性检验。第九章 方差分析一、方差分析的根本原理及步骤一方差分析的根本原理及步骤1、方差分析的根本概念方差:又叫均方,是标准差的平方,是表示变异的量方差分析通过对多组平均数的差异进展显著性检验,分析实验数据中不同来源的变异对总变异影响的大小。2、方差分析的根本原理方差分析又称为变异分析 ,是由斯内德克 提出的一种方法。方差分析通过对多组平均数的差异进展显著性检

46、验,分析实验数据中不同来源的变异对总变异影响的大小。 3、方差分析的逻辑方差分析作为一种统计方法,是把实验数据的总变异分解为假设干个不同来源的分量。因而它所依据的根本原理是变异的可加性。在统计分析中,一般用方差来描述变量的变异性。 方差分析是将总平方与分解为几个不同来源的平方与实验数据及平均数离差的平方与。然后分别计算不同来源的方差,并计算方差的比值即值。根据值是否显著对几组数据的差异是否显著作出判断。4、方差分析的根本过程提出假设选择检验统计量并计算 分解平方与 分解自由度 计算方差 计算F值作出统计结论并列方差分析表5、方差分析的根本条件总体正态分布各实验处理是随机的且相互独立一般情况下都

47、能满足各实验处理内方差一致需要进展检验/6、方差分析中的几个概念 实验中的自变量称为因素。只有一个自变量的实验称为单因素实验,两个或两个以上称为多因素实验。 某一因素的不同情况称为因素的“水平。 水平包括量差或质别两类情况,按各个“水平条件进展的重复实验称为各种实验处理。如果是单因素实验,那么处理数就是水平数;如果是多因素实验,处理数就是各因素的水平数的乘积。 二、完全随机设计的方差分析一完全随机设计的方差分析方差分析处理的一般是由多个实验组承受一个变量或多个变量的多种水平的实验结果,是一种多组实验设计本讲只介绍一个变量即单因素的方差分析 。这种多组实验设计的类型常用的有组间设计、组内设计与混

48、合设计等等。完全随机设计 的方差分析,是单因素组间设计的方差分析 。为了检验某一个因素多种不同水平间差异的显著性,将从同一个总体中随机抽取的被试,再随机地分入各实验组,施以各种不同的实验处理之后,用方差分析法对这多个独立样本平均数差异的显著性进展检验,称为完全随机设计的方差分析。完全随机设计的方差分析中,把各种变异的总与称为总变异,并把总变异分成两局部:一局部称为组间变异,是在不同实验组之间表现出来的差异;另一局部称为组内变异,是在同一实验组内部不同被试之间表现出来的差异。 三、随机区组设计的方差分析一随机区组设计的方差分析随机区组设计的方差分析,是对多个相关样本平均数的差异进展显著性检验。在

49、检验某一因素多种不同水平即不同实验处理之间差异的显著性时,为了减少被试间个别差异对结果的影响,把从同一个总体中抽取的被试按条件一样的原那么分成各个组称为区组,使每个区组内的被试尽量保持同质。在对各区组施以多种实验处理之后,用方差分析法对这多个相关样本平均数差异所进展的显著性检验,称为随机区组设计的方差分析。1区组随机区组设计的原那么是同一区组内的被试应尽量“同质,每一区组内被试的人数分配有以下三种方式:每一个被试作为一个区组,所有的被试都要分别承受各种实验处理;每一区组内的被试人数是实验处理数的整倍数。同一区组内的每几个被试可以随机承受同一种实验处理;以一个团体为一个根本单元。总之,就区组来说

50、,每一个区组都承受所有的各种实验处理;就实验处理来说,每一种实验处理在各个区组中重复的次数一样。随机区组设计的方差分析中,承受各种实验处理的是同一些区组,故个别差异可以从组内差异中别离出来,从而减少由个别差异造成的误差,增加实验的信息,提高实验的效率。2变异来源随机区组设计的方差分析将变异来源分解为组间变异、区组变异与误差变异三局部:3随机区组设计方差分析的计算公式分解平方与 总平方与 组间平方与区组平方与 公式中:R表示某一区组在某种处理的分数 n表示区组数,K表示处理数误差平方与分解自由度总自由度可以分解为组间、区组与误差自由度:总自由度 组间自由度 区组自由度误差自由度计算方差组间方差 区组方差 误差方差 计算值组间方差及误差方差的比值区组方差及误差方差的比值 随机区组设计的方差分析表表91 随机区组设计方差分析表变异来源平方与自由度方差F 值概率组间变异PP区组变异误差变异总变异随机区组设计的方差分析,根据实验设计的特点,把区组效应从组内平方与中别离出来。这时总平方与被分解为组间平方与、区组平方与、误差项平方与。及完全随机设计的方差分析相比,其最大优点是考虑到个别差异的影响即区组效应,可以将这种影响从组内变异中别离出来,从而提高效率。但是这种设计也有缺乏,主要表现在划分区组的困难上。如果不能保证同一区组内尽量同质,那么有出现更大误差的可能。第 42 页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!