用SPSS对计数数据进行统计分析和检验

上传人:Sc****h 文档编号:147125226 上传时间:2022-09-01 格式:DOC 页数:14 大小:766.50KB
收藏 版权申诉 举报 下载
用SPSS对计数数据进行统计分析和检验_第1页
第1页 / 共14页
用SPSS对计数数据进行统计分析和检验_第2页
第2页 / 共14页
用SPSS对计数数据进行统计分析和检验_第3页
第3页 / 共14页
资源描述:

《用SPSS对计数数据进行统计分析和检验》由会员分享,可在线阅读,更多相关《用SPSS对计数数据进行统计分析和检验(14页珍藏版)》请在装配图网上搜索。

1、第七节计数数据统计分析的SPSS操作对于计数数据的统计分析,SPSS 提供了不同的分析和检验方法,从总体上来说,大致可以分为:用于比率差异的非参数二项检验,用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S 检验和正态图检验法和用于独立性检验的列联表分析等,这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。一、二项分布的非参数检验方法我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同,如某地区出生婴儿的性别比例是否与通常男女各半的结论相符,或在一次抽样中,男女两性所占的比例是否与原先设计好的比例相符。此时即可用二项分布(Binom

2、ial )方法进行检验。下面结合具体数据说明Binomial 方法在检验比率差异时的应用。1数据所用数据文件为SPSS目录下之 GSS93 subset.sav。这里我们将该数据文件另寸为“ 8-6-1.sav”。该文件中有一变量SEX,是回答者的性别,我们想检验这些回答者的性别是否各占一半。2理论分析从上面数据来看,我们的目的是检验数据中男生和女生所占的比例是否相等,这等价于检验男生所占的比例是否等于 0.5,可以用比例检验的方法进行检验。 在 SPSS 中对应于二项分布的检验( Binomial Test )过程。3二项分布检验过程( 1)打开该数据文件后点击菜单Analyze ,在下拉菜

3、单中选择Nonparametrics Tests子菜单中的Binomial,单击可进入二项检验(Binomial Test)的主菜单。把SEX变量选入到检验变量表列中,其他选项请保持默认(图8-1)。图 8-1:二项分布检验主对话框( 2)请单击 Options 按钮,打开对话框如图 8-2 所示。在此我们想同时在结果中输出一些描述统计量及百分位数,可设置如图所示。设置完成单击Continue 按钮回到主对话框。图 8-2:二项分布 Options 窗口( 3)在主对话框中点击 OK 得到程序运行结果。4结果及解释( 1)输出数据描述统计量信息NPar TestsDescriptive Sta

4、tisticsNMeanStd.MinimumMaximumPercentilesDeviation25th50th75th(Median)Respondent15001.57.49121.002.002.00s Sex在描述统计表中,程序提供了样本容量、平均数、标准差、极值及三个百分位数。( 2) 输出二项分布检验结果Binomial TestCategoryNObserved Prop.Test Prop.Asymp. Sig.(2-tailed)RespondentsGroup 1Male641.43.50.000SexGroup 2Female859.57Total15001.00a

5、Based on Z Approximation.在 Binomial Test 表中,所检验变量的有关信息,如男女两性的数目及比例,最后一项是双侧检验的显著性水平值。 本例数据检验结果表明: 男生组的人数 641,在总人数中所占的比例为 0.43,假设的总体比例为 0.5,双侧检验的显著性小于 .05,所以我们可以说男女两性回答者比例相同的假设不能成立,从表中可以看出,女性被试远多于男性被试(女生人数859 人,所占比例0.57)。5非对称二项分布的检验也可以用该程序来检验样本数据分布是否来自非对称分布的二项总体。以刚才我们用过的数据为例,假如在调查设计时,调查者想控制被试性别比例(男:女)

6、为4:6,在调查结束后分析数据资料中的性别比例是否与原先所设想的一致。操作如下: 打开 Binomial 对话框, 设置如下图8-3 所示(指定检验的概率值为0.40):图 8-3:非对称二项分布比率定义用户可以自行检验程序运行的结果。如果用户指定分析的变量中含有三个或更多的变量值,在定义二分值时,需要选择项,并在后面的方框中填入一个分界点,该分界点必须小于最大变量值,大于最小变量值。小于Cut point或等于分界点的值形成第一项, 大于分界点的值将形成第二项。 此时请注意如果指定检验概率值,它所对应的将是第一项的概率值。请用户自行检验该程序。二、配合度的检验(一)、离散变量配合度检验单样本

7、2 检验这种方法可用于离散型变量的配合度检验,分析实际频数与理论频数是否一致。它要求至少有一个变量,变量值为几个固定值,即一个因素多项分类的情况。2 检验的主对话1数据采用 SPSS文件夹中的CARS.SA V 数据为例,具体说明这一方法的应用。CARS.SA V 数据文件中有一变量为origin ,变量值为1、 2、3 三个整数,分别代表三个地区,这三个整数出现的总次数是 405。我们现在欲检验这三个地区所出现的频率是否与预期的270、 65、 70 一致。将该数据文件另存为“8-6-2.sav”。2理论分析从上面数据来看,我们的主要目的是检验三个地区的实际观测频率与理论假设的270、65、

8、70 是否存在差异,属于离散变量配合度检验的问题,应用卡方检验。3单样本2 检验过程和结果( 1)请单击主菜单Analyze / Nonparametric Tests / Chi-Square ,可进入单样本框。从左边变量表列中把指定分析的地区变量选入到右边检验变量表中去,在下面 Expected values中选择Values 一项,并分别把理论次数填入到小方框中,并点击Add 按钮完成设置。如果我们欲检验的理论次数各组相等,则可以直接选择All categories eaqual 项即可。在Expected range 项中保持默认选择项即Get from data 。如果我们只想使用一

9、部分按大小顺序排列的数据来进行分析,就可以选择Use specified range,并指定数据的下限与上限。本例设置如下图11-1 所示:图 11-1( 2 ) Exact 按钮可以保持默认选项。 Options 按钮允许用户指定输出结果是否包括描述性统计量,以及对缺失值的处理方法。因与前面所讲述的用法相同,在此不再赘述。点击Continue 返回主对话框。( 3)在主对话框中点击OK,得到输出结果。4结果及解释( 1 )描述统计量表列出了变量名、样本容量、平均数、标准差、最小值、最大值。Descriptive StatisticsNMeanStd. DeviationMinimumMaxi

10、mumCountry of Origin4051.57.8013( 2 )实际观测数与理论次数对照表列出了每个变量值的实际频数与理论次数及差值。Country of OriginObserved NExpected NResidualAmerican253270.0-17.0European7365.08.0Japanese7970.09.0Total405本例中,美国( American )实际观测次数 253人,理论期望次数 270人,实际观测次数与理论次数的差异为 -17;欧洲( European )实际观测次数 73人,理论期望次数 65人,实际观测次数与理论次数的差异为 8;日本(

11、Japanese )实际观测次数 79人,理论期望次数 70人,实际观测次数与理论次数的差异为 9。( 3) 2检验表列出了2值,自由度及显著性水平值。在这种基于渐近分布的检验方法中,显著性水平小于 0.05即可认为实际次数与理论次数差异显著,否则差异不显著。Test Statistics aCountry of OriginChi-Square3.212df2Asymp. Sig.201a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 65.0.在本例中,

12、对应的卡方统计量的值为3.212 ( 2=3.212),对应的自由度为2( df=2 ),显著性水平值为0.2010.05 ,故可认为实际次数与理论次数无差异。(二)连续型变量的配合度检验正态分布的检验有时在执行统计分析前,需要确定样本是否来自一个正态分布的总体。在此我们介绍一种非参数检验的方法及相应的图形检验法。1单样本的K-S 检验( 1)数据我们仍以 SPSS 目录下的数据文件 GSS93 subset.sav(或盘中文件 8-6-1.sav)为例,我们欲检验 educ 变量值是否来自正态分布的总体。( 2)变量受教育程度可以看成是一个连续型的变量,要检验其分布是否为正态分布属于配合度检

13、验的问题,可以用单样本的K-S 检验。( 3)操作过程单击主菜单Analyze/Nonparametrics Test / 1-Sample K- S ,进入主对话框, 请设置如下图8-4所示:图 8-4: 单样本的柯尔莫哥洛夫斯米诺夫检验主对话框程序所能检验的四种分布:Normal (正态分布) 、 Uniform (均匀分布) 、 Poisson(普阿松分布)和 Exponedtial (指数分布) 。单击 Exact 可进入选择检验方法的对话框,如下图8-5 所示:图 8-5: K S 检验的 Exact 选项Asymptotic only 是一种基于渐近分布的显著性水平的检验指标,通常

14、显著性水平小于0.05则认为显著,适于大样本,如果样本过小或分布不好,该指标的适用性会降低。Monte Carlo 精确显著性水平的无偏估计,适用于样本过大无法使用渐近方法估计显著性水平的情况,可以不必依赖渐近方法的假设前提。Exact精确计算观测结果的概率值,通常小于0.05 即被认为显著,表明行变量与列变量之间存在相关。同时允许用户键入每次检验的最长时间限制,可以键入1 到9, 999, 999, 999 之间的数字,但只要一次检验超过指定时间的30 分钟,就应该使用Monte Carlo方法。注:只要有可能,程序会提供显著性水平的精确值,而不是Monte Carlo估计值。单击 Opti

15、ons 按钮可以进入对话框。选择是否输出描述统计量和百分位数,以及以缺失值的处理,由于与以前所用过的程序相差无几,所以在此不赘述。在主对话框点击OK 得到程序执行结果。( 4)结果及解释描述统计量信息Descriptive StatisticsNMeanStd. Minimum MaximumPercentilesDeviation25th50th75th(Median)Highest Year1496 13.043.07020 12.0012.00 15.75of SchoolCompleted描述统计量表列指定检验变量的标签、样本容量、平均数、标准差、最大值、最小值及三个百分位数。单样本的

16、K-S 检验结果One-Sample Kolmogorov-Smirnov TestHighest Year of School CompletedN1496Normal ParametersMean13.04Std. Deviation3.07Most Extreme DifferencesAbsolute.163Positive.134Negative-.163Kolmogorov-Smirnov Z6.317Asymp. Sig. (2-tailed).000aTest distribution is Normal.bCalculated from data.上表中输出了指定检验变量的正

17、态参数,包括平均数与标准差,极端差的最大绝对值、正值及负值, K-S Z 值,双侧检验的显著性水平。由于渐近方法所检验的显著性水平小于0.05,所以变量 educ 的值并非来自一个正态分布的总体。2检验正态分布的图形( 1) Q-Q正态检验图为了更形象地说明这一种结果,我们还将介绍一种图形检验方法。仍以 K-S 检验所用数据文件和分析变量为例。Q-Q 正态检验图的操作过程如下:单击主菜单Graphs/Q-Q ,请保持对话框如下图8-6所示的设置 (即把欲检验的变量选入到指定变量表列中去,在 Test Distribution 选项中选择Normal即正态分布检验,其他设置保持默认):图 8-6

18、: Q-Q 图定义窗口单击完成后输出两个统计图如下所示。图 8-7 为正态分布 Q-Q 检验图,横坐标为实际观测值按从小到大的顺序排列,纵坐标为正态分布下的期望值。如果实际观测值取自正态分布的总体,那么图中所示的落点应该分布在趋势线的附近,并且应该表现出一定的集中趋势,即平均数附近应该聚集较多的落点,越靠近两个极端落点越少。现在图中落点的分布尽管呈现出线性状态,但由于没有表现出集中趋势,所以可以判断它并非正态分布或接近正态分布。lamroNmofrnotiaiveDNormal Q-Q Plot of Highest Year of School Completed3020eulaVl10am

19、roNdetcepx0E-100102030Observed Value图 8-7:正态分布Q-Q 检验图Detrended Normal Q-Q Plot of Hi ghest Year of School Completed10-1-2-3-4-100102030Observed Value图 8-8 为无趋势正态检验图图 8-8 为无趋势正态检验图,它以实际观测值为横坐标,以实际观测值与期望值的差为纵坐标。在符合正态分布的情况下,图中的落点应该分布在中央横线的附近,甚至完全落到这条横线上,而且也应表现出集中在平均数周围的趋势。现在图中所示的落点分布离散性较大,不符合正态分布标准, 所以

20、我们可以说该样本属非正态分布。从这个图中, 我们还可以发现极端值的存在,例如图中离中央线最远的几个落点,都落在下方,表明样本数据中存在极端小的观测值,这时,需要检查数据录入是否有误。如果变量分布明显地呈现非正态,在进行一些要求正态分布前提下的分析以前,应当考虑对数据进行必要的变换。( 2) P-P 正态检验图单击主菜单Graphs/P-P ,进入主对话框。设置与Q-Q 程序相同,它的输出图形也与Q-Q极相似,唯一不同之处在于图形的横纵坐标都变成了累加百分比,横坐标为实际观测值的累加百分比,纵坐标为假定正态分布下有累加百分比。是否接近正态分布的判断标准与Q-Q 输出图相同。三独立性检验列联表分析

21、列联表分析可以为我们提供每类的实际观测值、理论值、所占百分比、及差异检验结果。1.数据仍以 SPSS文件夹中的数据文件GSS93 subset.sav(或盘中文件“”8-6-1.sav)为例,在此数据中,有两个变量为income4(家庭年收入)与degree(学历)。这两个变量都是按人为标准划分的定性变量(用户可以双击变量名,并在Labels 按钮中看到变量值及其标签说明)。现在我们想知道这两个变量之间是否存在关联,也就是说学历是否在年收入的不同分类上存在差异,反之亦然。2.理论分析如果要研究的两个变量都具有两项或更多的分类值,如体育项目的划分、人种的划分,或只是研究者按一定的标准分为不同的类

22、别,如优、良、中、差,这种定性数据(或计数数据)之间关系(是指一个变量的不同分类在另一变量分类上是否存在差异,或者说两个变量是否相互关联)的研究通常使用列联表分析。在分析过程中由于主要根据2分布进行, 所以又常称其为2检验。3.操作过程( 1) 单击主菜单 Analyze / Descriptive Statistics / Crosstabs 可进入列联表分析的主对话框。从左边变量表列中把指定分析的两个变量degree与 income4 分别选到到右边Row 与 Column 框中,如图 8-9 所示:图 8-9: Crosstabs主对话窗口( 2)为了检验两个变量是否关联,我们需要对其进

23、行检验。这一步可以通过Statistics按钮进行。单击该按扭可进入其设置对话框。一般我们都需要输出2值及其检验结果,同时,在Nominal组中,我们还发现可以选择列联相关系数C,即Contingency coefficient,这是检验R C表品质相关常用的一个指标。完成设置如下图8-10 所示:图 8-10 : Crosstabs统计量输出选择窗口( 3)SPSS 在列联表时, 允许用户自己控制表中的输出内容。 该项设置可以单击主菜单中按钮来进行。打开它的对话框如图 8-11 所示,可以看到共有三组可选项,下面具体说明:Cells Counts 次数Observed 实际观测频数Expec

24、ted 理论次数Percentages 百分比Row 横行次数百分比Column 纵列次数百分比Total 总共 Resduals 残差Unstandardized 残差,实际次数与理论次数之差。Standardized 标准化残差,残差除以其标准误,又称Pearson 残差,其均值为0,准差为1。Adj. Standardized调整标准化残差图 8-11 :Crosstabs单元格输出选择窗口点击 Continue ,返回主对话框。( 4)在主对话框中点击 OK,得到程序运行结果。4结果及解释( 1)文件中观测量的概括描述列出了有效观测量、缺失值及全部观测量的个数和百分比。Case Pro

25、cessing SummaryValidNPercentCasesMissingNPercentTotalN PercentINCOME4Total Family Income149699.7%4.3%1500100.0%* DEGREERS Highest Degree上表显示,总的观测为1500 个,有效样本 1496 个,占 99。 7% ,缺失值 4 个,占 0。3% 。( 2 ) R C表 表中列出了两个变量每项分类,由用户指定输出的内容,如实际次数与理论次数。INCOME4Total Family Income * DEGREERS Highest Degree Crosstabu

26、lationDEGREERS Highest DegreeTotal0Less1High2Junior34than HSschoolcollegeBachelorGraduateINCOME41.00Count19631525399584Total24,999 orFamilylessIncomeExpected108.9304.535.191.344.1584.0Count2.00Count2817521581830025,000 to39,999Expected55.9156.418.046.922.7300.0Count3.00Count1612123521823040,000 to59

27、,999Expected42.9119.913.836.017.4230.0Count4.00Count3916921856838260,000 ormoreExpected71.2199.223.059.828.9382.0CountTotalCount279780902341131496Expected279.0780.090.0234.0113.01496.0Count( 3)2检验表列出了三种2值及其显著性水平,若显著性水平小于临界值如0.05,则表明两变量互相关联,但不反映两变量的关联强度及方向。在表的下方还附有单元格的理论次数小于5 的个数及百分比,以及单元格的最小理论次数。已有研

28、究者建议当最小理论次数小于1 或超过20% 的单元格的理论次数小于5 的时候不应选择该项,也有研究者建议所有单元格的理论次数都应大于或等于5 。为了达到这样的要求,在条件不具备的时候应该考虑对分类项目进行合并处理。Chi-Square TestsValuedfAsymp. Sig. (2-sided)Pearson Chi-Square264.29912.000Likelihood Ratio266.63812.000Linear-by-Linear Association194.1751.000N of Valid Cases1496a0 cells (.0%) have expected

29、countless than 5.The minimum expected countis 13.84.本例中数据检验结果表明: 3 个统计量的值检验结果都达到了显著水平,说明检验的两个变量之间存在显著的关联。( 4 )两变量的相关系数表列出了名义变量间的品质相关系数及显著性水平。Symmetric MeasuresValueApprox. Sig.Nominal by NominalContingency Coefficient.387.000N of Valid Cases1496a Not assuming the null hypothesis.b Using the asymptotic standard error assuming the null hypothesis.在此 C=0.387 ,虽然相关不是很高,但检验结果表明足以达到相关的显著性水平。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!