描述性统计分析

上传人：z**** 文档编号：126330583 上传时间：2022-07-28 格式：DOC 页数：13 大小：312.50KB

收藏版权申诉举报下载

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

本资源只提供3页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

15 积分

下载资源

资源描述：

《描述性统计分析》由会员分享，可在线阅读，更多相关《描述性统计分析（13页珍藏版）》请在装配图网上搜索。

1、第六章描述性统计分析DescriptiveStatistics菜单详解Frequencies过程界面说明分析实例结果解释Descriptives过程界面说明结果解释Explore过程界面说旷结果解释Crosstabs过程界面说明分析实例结果解释描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中，最常用的是列在最前面的四个过程：Frequencies过程的特色是产生频数表；Descriptives过程则进行一般性的统计描述；Explore过程用

2、于对数据概况不清时的探索性分析；Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验，我们常用的X2检验也在其中完成。6.1Frequencies过程频数分布表是描述性统计中最常用的方法之一，Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表，还可以按要求给出某百分位点的数值，以及常用的条图，圆图等统计图。心和国内常用的频数表不同，几乎所有统计软件给出的均是详细频数表，即并不按某种要求确定组段数和组距，而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表，请先用第二章学过的Recode过程产生一个新变量来代表所需的各

3、组段。界面说明Frequencies对话框的界面如下所示：该界面在SPSS中实在太普通了，无须多言，重点介绍一下各部分的功能如下【Displayfrequencytables复选框】确定是否在结果中输出频数表。Statistics钮】单击后弹出Statistics对话框如下，用于定义需要计算的其他描述统计量。现将各部分解释如下：oPercentileValues复选框组定义需要输出的百分位数，可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5

4、。oCentraltendency复选框组用于定义描述集中趋势的一组指标：均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。oDispersion复选框组用于定义描述离散趋势的一组指标：标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。oDistribution复选框组用于定义描述分布特征的两个指标：偏度系数(Skewness)和峰度系数(Kurtosis)。oValuesaregroupmidpoints复选框当你输出的数据是分组频数数据，并且具体数值是

5、组中值时，选中该复选框以通知SPSS，免得它犯错误。站众数(Mode)指所有数值中出现频率最高的一个值，在国内用的非常少。【Charts钮】弹出Charts对话框，用于设定所做的统计图。oCharttype单选钮组定义统计图类型，有四种选择：无、条图(Barchart)、圆图(Piechart)、直方图Histogram)，其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。oChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框，用于定义输出频数表的格式，不过用处不大，一般不管。oOrderby单选钮组定

6、义频数表的排列次序，有四个选项：Ascendingvalues为根据数值大小按升序从小到大作频数分布；Descendingvalues为根据数值大小按降序从大到小作频数分布；Ascendingcounts为根据频数多少按升序从少到多作频数分布；Descendingcounts为根据频数多少按降序从多到少作频数分布。oMultipleVariables单选钮组如果选择了两个以上变量做频数表，则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示，便于互相比较，Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。oSuppress

7、Tablesmorethan.复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出，这样可以避免产生巨型表格。分析实例例6.1某地101例健康男子血清总胆固醇值测定结果如下，请绘制频数表、直方图，计算均数、标准差、中位数M、p2.5和p97.5。4.773.376.143.953.564.234.314.715.694.124.564.375.396.305.217.225.543.935.214.125.185.774.795.125.205.104.704.743.504.694.384.896.255.324.504.633.614.444.434.254.035.854.093.

8、354.084.795.304.973.183.975.165.105.864.795.344.244.324.776.366.384.885.553.044.553.354.874.175.855.165.094.524.384.314.585.726.554.764.614.174.034.473.403.912.704.604.095.965.484.404.553.894.604.473.644.345.186.143.244.903.05解：为节省篇幅，这里只给出精确频数表的做法，假设数据已经输好，变量名为X,具体解法如下：1. Analyze=DescriptiveStatisti

9、cs=Frequencies2. Variables框：选入X3. 单击Statistics钮：4. 选中Mean、Std.deviation、Median复选框5. 单击Percentiles:输入2.5：单击Add：输入97.5:单击Add：6. 单击Continue钮7. 单击Charts钮：8. 选中Barcharts9. 单击Continue钮单击OK结果解释上题除直方图外的的输出结果如下：FrequenciesStatistics血清总胆固醇NValid101Missing0Mean4.6995Median4.6100Std.Deviation.86162Percentiles2.

10、53.045597.56.4565最上方为表格名称，左上方为分析变量名，可见样本量N为101例，缺失值0例，均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。3.050011.01.03.03.1SLiij11.01.04.03.240011.01.05.0CumuIstiveFrequencyPercentValidPercentPercentValid2.700011.01.01.03.040011系统对变量x作频数分布表（此处只列出了开头部分），Vaild右侧为原始值，Frequency为频数Percent为各组频

11、数占总例数的百分比（包括缺失记录在内）,Validpercent为各组频数占总例数的有效百分比，CumPercent为各组频数占总例数的累积百分比。6.2Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程，他可对变量进行描述性统计分析，计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。界面说明【Savestandardizedvaluesasvariables复选框】确定是否将原始数据的标准正态评分存为新变量。【Options钮】弹出Options对话

12、框，大部分内容均在前面Frequences过程的Statistics对话框中见过，只有最下方的DisplayOrder单选钮组是新的，可以选择为变量列表顺序、字母顺序、均数升序或均数降序。结果解释下面是一个典型的Descriptives过程结果统计表：DescriptiveStatisticsNMinimumMaximumMeanStd.Deviation血清总胆固醇1012.707.224.6995.86162ValidN(listwise)101一望可知，这里的大部分内容都在上一节见过，因此就不再多解释了。嗟讲了两个过程，也许大家已经发现了：结果中的统计专业单词多数在对话框中就已经出现，因

13、此我们以后会详细解释对话框的内容，结果中相同的单词不再重复解释。6.3Explore过程Explore过程可对变量进行更为深入详尽的描述性统计分析，主要用于对资料的性质、分布特点等完全不清楚时，故又称之为探索性分析。它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，如枝叶图、箱图等，显得更加详细、全面，有助于用户制定继续分析的方案。界面说明【Display单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【DependentList框】用于选入需要分析的变量。【FactorList框】如果想让所分析的变量按某种因素取值分组分析，则在这里选入分组变量。【Lab

14、elcasesby框】选择一个变量，他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【Statistics钮】弹出Statistics对话框，用于选择所需要的描述统计量。有如下选项：Descriptives复选框：输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。oM-estimators复选框：作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数。oOutliers复选框：输出五个最大值与五个最小值。oPercentiles复选框：输出第5%、1

15、0%、25%、50%、75%、90%、95%位数。【Plot钮】弹出Plot对话框，用于选择所需要的统计图。有如下选项：oBoxplots单选框组：确定箱式图的绘制方式，可以是按组别分组绘制(Factorlevelstogether)，也可以不分组一起绘制(Depentendstogether)，或者不绘制(None)。oDescriptive复选框组：可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。oNormalityplotswithtest复选框：绘制正态分布图并进行变量是否符合正态分布的检验。oSpreadvs.LevelwithLeveneTest单选

16、框组：当选择了分组变量时，绘制spread-versus-level图(我还没有找到他的中文名字该叫什么)，设置绘图时变量的转换方式，并进行组间方差齐性检验。【Options钮】用于选择对缺失值的处理方式，可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录，或报告缺失值。结果解释以例6.1的数据为例，按默认方式下的选择，Explore过程的输出如下：ExploreCaseProcessingSummaryCasesValidMissingTotalNPercentNPercentNPercent血清总胆固醇101100.0%0.0%101100.0%首先是例行的处理记录缺失值情

17、况报告，可见101例均为有效值。DescriptivesStatisticStd.Error血清总胆固醇Mean4.6995.0857395%ConfidenceLowerBound4.5294IntervalforMeanUpperBound4.86965%TrimmedMean4.6881Median4.6100Variance.742Std.Deviation.86162Minimum2.70Maximum7.22Range4.52InterquartileRange1.0600Skewness.251.240Kurtosis.101.476上表详细列出了常用的描述统计量，如果有标准误也

18、会列出（如偏度和峰度系数）。XStem-and-LeafPlotFrequencyStem&Leaf1.002.78.003.001233349.003.55668999924.004.25.004.555555666667777777778889917.005.9.005.5567788896.006.1123331.006.51.00Extremes(=7.2)Stemwidth:1.0000Eachleaf:1case(s)以上是茎叶图，整数位为茎，小数位为叶。这样可以非常直观的看出数据的分布范围及形态，在国外非常流行。CllBlulI以上是箱式图，中间的黑粗线为均数，红框为四分位间距的

19、范围，上下两个细线为最大、最小值。6.4Crosstabs过程Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。统计推断则包括了我们常用的X2检验、Kappa值，分层X2）。如果安装了相应模块,M-H还可计算n维列联表的确切概率（FishersExactTest）值。也JCrosstabs过程不能产生一维频数表（单变量频数表），该功能由Frequencies过程实现。界面说明【Rows框】用于选择行*列表中的行变量。【Columns框】用于选择行*列表中的列变量。【Layer框】Layer指的是层，对话框中

20、的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。Layer在这里用的比较少，在多元回归中我们将进行详细的解释。【Displayclusteredbarcharts复选框】显示重叠条图。【Suppresstable复选框】禁止在结果中输出行*列表。【Exact钮】钮。针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptoticonly）、蒙特卡罗模拟（MonteCarlo）或确切计算（Exact）。蒙特卡罗模拟默认进行10000

21、次模拟，给出99%可信区间；确切计算默认计算时间限制在5分钟内。这些默认值均可更改。如果你在安装SPSS时没有安装EXACT模块，则此处对话框中不会出现Exact在3*3及以上的行*列表中，确切概率的精确计算是极为漫长的过程。我曾经用SAS6.12在P133机上计算过一个12格表的确切概率，整整跑了两个小时后，SAS告诉我说机器内存不足：（。SPSS的计算速度比SAS要慢许多倍，因此一般只需要选用蒙特卡罗模拟算出概率值的99%可信区间就行了，精度完全可以满足需要，而速度极快（10000次模拟一般耗时在10秒左右）。【Statistics钮】弹出Statistics对话框，用于定义所需计算的统计

22、量。oChi-square复选框：计算X2值。oCorrelations复选框：计算行、列两变量的Pearson相关系数和Spearman等级相关系数。oNorminal复选框组：选择是否输出反映分类资料相关性的指标，很少使用。a. Contingencycoefficient复选框：即列联系数，其值界于01之间；PhiandCramersV复选框：这两者也是基于X2值的，Phi在四格表X2检验中界于-11之间，在R*C表X2检验中界于01之间；CramersV则界于01之间；Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测应变量好，为0时表明自变量预测应变量差

23、；Uncertaintycoefficient复选框：不确定系数，以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。oOrdinal复选框组：选择是否输出反映有序分类资料相关性的指标，很少使用。a. Gamma复选框：界于01之间，所有观察实际数集中于左上角和右下角时，其值为1；Somersd复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例；Kendallstau-b复选框：界于-11之间；Kendallstau-c复选框：界于-11之间；oEta复选框：计算Eta值，其平方值可认为是应变量受不同因

24、素影响所致方差的比例；oKappa复选框：计算Kappa值，即内部一致性系数；oRisk复选框：计算比数比OR值；oMcNemanr复选框：进行McNemanr检验（一种非参检验）；oCochransandMantel-Haenszelstatistics复选框：计算X2统计量（分层X2，也有M-H写为X2cmh的），可在下方输出H。假设的OR值，默认为1。【Cells钮】弹出Cells对话框，用于定义列联表单元格中需要计算的指标：oCounts复选框组：是否输出实际观察数（Observed）和理论数（Expected）；oPercentages复选框组：是否输出行百分数（Row）、列百分数（

25、Column）以及合计百分数（Total）；oResiduals复选框组：选择残差的显示方式，可以是实际数与理论数的差值（Unstandardized）、标化后的差值（Standardized,实际数与理论数的差值除理论数），或者由标准误确立的单元格残差（Adj.Standardized）；【Format钮】用于选择行变量是升序还是降序排列。分析实例例6.2某医生用国产呋喃硝胺治疗十二指肠溃疡，以甲氰咪胍作对照组，问两种方法治疗效果有无差别（2by2.sav）?处理愈合1未愈合2合计呋喃硝胺154862甲氰咪胍2442064合计9828126解：由于此处给出的直接是频数表，因此在建立数据集时可

26、以直接输入三个变量一一行变量、列变量和指示每个格子中频数的变量，然后用WeightCases对话框指定频数变量，最后调用Crosstabs过程进行X2检验。假设三个变量分别名为R、C和W,则数据集结构和命令如下：RCW1.001.0054.001.002.0044.002.001.008.002.002.0020.001. Data=WeightCases2. WeightCasesby单选框：选中3. FreqencyVariable:选入W4. 单击OK钮5. Analyze=DescriptiveStatistics=Crosstabs6. Rows框：选入R7. Columns框：C8

27、. Statistics钮：Chi-square复选框：选中：单击Continue钮单击OK钮结果解释上题的结果如下：CrosstabsCaseProcessingSummaryCasesValidMissingTotalNPercentNPercentNPercentDRUG*RESULT126100.0%0.0%126100.0%首先是处理记录缺失值情况报告，可见126例均为有效值。DRUG*RESULTCrosstabulationCountRESULTTotal未愈合愈合DRUG呋喃硝胺.85462甲氰咪胍204464Total2898126上面为列出的四格表，实际使用时可以在其中加入

28、变量值标签，使看起来更清楚。Chi-SquareTestsValuedfAsymp.Sig.(2-sided)ExactSig.(2-sided)ExactSig.(1-sided)PearsonChi-Square6.133(b)1.013ContinuityCorrection(a)5.1181.024LikelihoodRatio6.3041.012FishersExactTest.018.011Linear-by-LinearAssociation6.0841.014NofValidCases126aComputedonlyfora2x2tableb0cells(.0%)haveexp

29、ectedcountlessthan5.Theminimumexpectedcountis13.78.上表给出了一堆检验结果，从左到右为：检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(ExactSig.2-sided)、单侧精确概率(ExactSig.l-sided)；从上到下为：Pearson卡方(PearsonChi-Square即常用的卡方检验)、连续性校正的卡方值(ContinuityCorrection)、对数似然比方法计算的卡方(LikelihoodRatio)、Fishers确切概率法(FishersExactTes

30、t)、线性相关的卡方值(LinearbyLinearAssociation)、有效记录数(NofValidCases)。另外,ContinuityCorrection和Pearson卡方值处分别标注有a和b,表格下方为相应的注解：a.只为2*2表计算。b.O%个格子的期望频数小于5，最小的期望频数为13.78。因此，这里无须校正，直接采用第一行的检验结果,即X2=6.133,P=0.013。嗟如何选用上面众多的统计结果令许多初学者头痛，实际上我们只需要在未校正卡方、校正卡方和确切概率法三种方法之间选择即可,其余的对我们而言用处不大，可以视而不见。Ratio过程例：对SPSS自带文件Car.sa

31、v中的汽车功率和车重之比进行描述，并观察不同产地的汽车该指标是否有差异。多选项分析例：在市场调查数据表(drink.sav)中收集了北京、上海和广州三个城市的受访者对几种常见饮料的喜好情况，可选饮料有茶、牛奶、咖啡、果汁、矿泉水。如果受访者平时经常饮用，则选1，否则选0。请分析：1、受访人群中最受欢迎的饮料是那种？2、男、女喜爱的饮料有无差异？3、三个城市的人群对饮料的喜好有无差异？解：思路如下1、多选题数据被录入到tea、milk等五个单独的变量中，如果要按照多选题的方式来分析，就必须先将它们定义为一个多选题变量集(multipleresponse),这个任务可以用DefineSets过程来

32、完成。2、第一个问题实际上是要求作出多选题的频数表，这可以使用菜单中的Frequencies过程来完成。3、后两个问题是要求作出多选题与其他分类变量的交叉表，这可以使用菜单中的Crosstabs过程来完成。基本报表1、个案简明统计报表(CasesSummary)例、对SPSS自带数据集Car.sav中的变量horse按不同产地及气缸数计算均数、中位数及标准差。2、行报表(ReportSummariesinRows)例、对SPSS自带数据集Car.sav按不同产地和气缸数计算汽车功率(horse)以及汽车加速到60mph所需时间(accel)的例数、均数及标准差，并给出在不同产地中该时间在20秒以上车型所占的比例。3、列报表(ReportSummariesinColumns)例、对SPSS自带数据集Car.sav按不同产地和气缸数计算汽车功率(horse)以及汽车加速到60mph所需时间(accel)的均数，要求计算每种组合下两者均数的百分比值，并给出不同产地的小计。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

描述性统计分析

最新文档

相关资源

相关搜索