基本统计分析

上传人:沈*** 文档编号:171640901 上传时间:2022-11-28 格式:DOC 页数:7 大小:81KB
收藏 版权申诉 举报 下载
基本统计分析_第1页
第1页 / 共7页
基本统计分析_第2页
第2页 / 共7页
基本统计分析_第3页
第3页 / 共7页
资源描述:

《基本统计分析》由会员分享,可在线阅读,更多相关《基本统计分析(7页珍藏版)》请在装配图网上搜索。

1、基本统计分析(SPSS讲义)公共卫生学院袁秀琴 统计分析包括两个方面:统计描述(statistical description)统计推断(statistical inference)。统计描述指选用恰当的统计指标,通常称为统计量(statistic),选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。统计描述是统计分析的第一步,为正确进行统计推断提供线索和依据。 在SPSS中,用于统计描述的统计量主要有以下几类:1)描述集中趋势的指标:常用的有算术均数(mean)、几何均数(geometric mean) 和中位数(median)。其中算术均数适用于正态分布和对称分布的资料

2、;几何均数适用于经对数转换后呈对称分布的资料,它不能用本章讲解的模块直接求出;中位数适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料。2) 描述离散趋势的指标:常用的有极差(range)、四分位数间距(quartile range)、方差(variance)、标准差(standard deviation)等。极差反映一组变量值最大值和最小值之差;四分位数间距一般和中位数一起描述偏态分布资料的分布特征;方差和标准差只适合于正态分布的资料。3)百分位数指标(percentile):是一种位置指标,适合于各种分布类型的资料。4)描述数据分布的统计量(Distribution)

3、:偏度系数、峰度系数。用来说明数据偏离正态分布的程度。 SPSS中的Descriptive Statistics菜单可以计算上述各种统计量并可绘出统计图表来实现统计描述,它主要包含以下几大模块:1)Frequencies过程:主要用于产生频数表;2)Descriptives过程:可对变量进行描述性统计分析,计算出一系列相应的统计指标;3)Explore过程:可对变量进行更为深入的描述性统计分析,又称为探索性分析。主要用于对资料性质、分布特点不清楚时。一、频数分布分析频数分布分析(Frequencies)可以产生详细的频数表,并可以按要求给出条图、直方图以及集中趋势和离散趋势的各种统计量,描述数

4、据的分布特征。此处要注意的是,该模块所给出的频数表,是全部数值的精确列表,实际上就是相同变量值个数的组合,并非是按规定的组距划分组段。如果想绘制我们熟悉的频数表,要使用Recode过程产生新变量来代替各组段。例51从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇()的测量结果如下,试编制频数分布表。(孙振球主编.医学统计学/第二版.北京:人民卫生出版社,2005:P13.)2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.502.704.614.752.913.91

5、4.594.192.684.524.913.183.684.833.873.953.914.154.554.803.414.123.955.084.533.923.585.353.843.603.514.063.073.554.233.574.833.523.844.503.964.503.274.523.194.593.753.984.134.263.633.875.713.304.734.175.133.784.573.803.933.783.994.484.284.065.265.253.985.033.513.863.023.704.333.293.254.154.364.953.00

6、3.26SPSS操作分析步骤:1.建立数据文件“胆固醇.sav”:将101个胆固醇值输成1列数值变量。2统计分析:(1)菜单选择Analyze Descriptive Statistics Frequencies弹出频数分布分析“Frequencies”对话框,如图5-1所示。在主对话框中有【Statistics】(见图52)、【Charts】(见图53)、【Format】(见图54)子对话框,各对话框的说明见表51、52、53。Display frequencies table: 显示频数分布表。表51 Statistics子对话框说明选项说明备注Percentile定义需要输出的百分位数本

7、例全选Central tendency用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。本例全选Dispersion用于定义描述离散趋势的一组指标:标准差(Std. Deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(maximum)、标准误(S.E. mean)本例全选Distribution用于定义描述分布特征的两个指标:偏度系数(Skewness)、峰度系数(Kurtosis)本例全选Values are group midpoints输出分组频数数据,具体数值为组中值,选中该框,

8、则在计算百分位数时会将数据按频数表处理。本例采用系统默认方法 表52 Charts子对话框说明选项说明备注Chart type定义统计图类型:无、条图(Bar charts)、圆图(Pie charts)、直方图(Histograms),直方图还可选择是否绘正态曲线(With normal curve)。本例选择直方图,加上正态曲线。Chart values选择条图及圆图时,定义是按频数还是百分比作图。本例因绘制直方图,不作选择。 表53 Format子对话框说明选项说明备注Order by定义频数表的排列顺序。Ascending values根据数值按升序作频数分布。:Descending

9、values: 根据数值按降序作频数分布。Ascending counts: 根据频数按升序作频数分布。Descending counts: 根据频数按降序作频数分布。本例采用系统默认方法Multiple variables如选择两个以上变量作频数表,Compare variables可以将结果在同一表格中输出,便于比较;Organize output variables则将结果在不同表格中输出。本例采用系统默认方法Suppresstables more than当频数表分组数大于设定数值,禁止它在结果中输出,避免产生过大表格。本例选择100。(2)SPSS程序 FREQUENCIES VAR

10、IABLES=胆固醇 /FORMAT=LIMIT(100) /NTILES= 4 /NTILES= 10 /PERCENTILES= 10 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIANMODE SUM SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER= ANALYSIS . 3主要输出结果及解释:主要输出结果有:统计量,如图5-5所示;频数表,如图5-6所示;直方图,如图5-7所示。 二、描述性统计分析描述性统计分析(Descriptive

11、s)主要用以描述集中趋势和离散趋势的各种统计量,还有一个特殊功能,就是可对变量进行标准化处理。 例52对例题5-1中的资料,求集中趋势和离散趋势的统计量。 SPSS操作分析步骤: 1. 打开数据文件 “胆固醇.sav”。 2. 统计分析: (1)菜单选择 Analyze Descriptive Statistics Descriptives弹出Descriptives主对话框,如图58所示。Save standardized values as variables: 对分析变量进行标准化处理,可产生一个标准化值(z分),并将z分在数据文件中存为新变量。【Options子对话框】 :选择单击“O

12、ptions”按钮,弹出“Options”对话框,如图59所示。图中大部分内容在Frequencies过程中的Statistics对话框见过。最下方的Display order是新出现的,可以用它选择变量列表顺序、字母顺序、均数升序或降序。(2)SPSS程序DESCRIPTIVES VARIABLES=胆固醇 /SAVE /STATISTICS=MEAN STDDEV MIN MAX . 3.主要输出结果:见图510。三、探索性分析探索性分析(Explore)的目的:对数据进行初步检查,判断有无奇异值(Outliers)和/或极端值(Extreme values);判断变量值是否服从正态分布;

13、对数据规律的初步考察。例53对例5- 1中的资料,进行初步的探索性分析。SPSS操作分析步骤:1. 打开数据文件 “胆固醇.sav”。2. 统计分析:(1)菜单选择Analyze Descriptive Statistics Explore弹出“Explore”主对话框,见图511。在主对话框中有【Statistics子对话框】(见图512),【Plots子对话框】(见图513),【Options子对话框】。各对话框说明见表54、55。表54 Statistics子对话框说明选项说明备注Descriptives输出均数、中位数、众数、5修正数、标准误、方差、标准差、最小值、最大值、全距、四分位

14、数间距、峰度系数、峰度系数的标准误、偏度系数、偏度系数标准误及指定均数的可信区间。本例选择描述。M-estimators集中趋势的最大稳健估计。本例没有选择。Outliers输出5个最大值和5个最小值。本例选择输出。Percentiles输出第5、10、25、50、75、90、95百分位数。本例没有选择。表55 Plots子对话框说明选项说明备注Boxplots确定箱式图的绘制方式。本例选择分组绘制箱式图。Descriptive选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。本例选择绘制茎叶图。Normality plots with test绘制正态分布图。本例选

15、择绘制正态分布图。Spread vs. level with levene test方差齐性检验。本例没有选择。【Options子对话框】:用于选择对缺失值的处理方式,可以不分析有缺失值的记录,不分析某统计量有缺失值的记录,或报告缺失值。 (2)SPSS程序EXAMINE VARIABLES=胆固醇 /PLOT BOXPLOT STEMLEAF NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. 3.主要输出结果及解释主要输出结果有:描述性统计量,如图5

16、-14所示; 极端值,如图5-15所示;正态性检验结果,如图5-16和图5-17所示;茎叶图,如图5-18所示;箱图,如图5-19所示。 说明: Sig(significant level)即P值,本例P=0.200,说明101名正常成年女子的血清总胆固醇值呈正态分布。一般来说,P值越大,越支持资料服从正态分布。 说明:如资料服从正态分布,则散点的分布接近于一条直线,本例支持正态分布。说明: 图中“3.00 2. 677”表示胆固醇值2.6的1例,胆固醇值2.7的2例,共3例。说明:1. 矩形框是箱图的主体,上中下三条线分别表示变量值的第75、50、25百分位数。 2. 触须线,是中间的纵向直线。上截止横线是变量值本体最大值;下截止线是变量值本体最小值。本体值即除奇异值以外的变量值称为本体值。3. 奇异值,使用“0”标记,分大小两种。箱体上方的用“0”标记的点,其变量值超过了第75百分位数与第25百分位数上的变量差值的1.5倍。箱体下方的用“0”标记的点,其变量值小于第75百分位数与第25百分位数上的变量差值的1.5倍。4. 极值,使用“*”标记。上极值点上的变量值超过了第75百分位数与第25百分位数上的变量差值的3倍;下极值点上的变量值超过了第75百分位数与第25百分位数上的变量差值的3倍。7

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!