《数据描述方法》PPT课件.ppt
《《数据描述方法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据描述方法》PPT课件.ppt(86页珍藏版)》请在装配图网上搜索。
综合评价,讲授老师:赵博娟(博士、教授)e-mail:bojuan_zhao,成绩:满分100-期末考试70%-作业、出勤,课本:统计学从数据到结论,吴喜之编著中国统计出版社,参考书目:,BusinessStatistics:ADecision-makingApproach(D.F.Groebner&P.W.Shannon)商务与经济统计精要(原书第2版)戴维R安德森等著,机械工业出版社,2005。统计分析与SPSS的应用,薛薇编著,中国人民大学出版社,2001。多元统计分析何晓群编著,中国人民大学出版社,2004。,课程大纲1统计学基本概念、数据收集和数据描述2线性回归分析和广义线性模型SPSS上机3聚类分析+SPSS上机4判别分析+SPSS上机5主成份+因子分析、6对应分析+SPSS上机,统计学的定义,统计学(statistics)是“收集、分析、展示和解释数据的科学”,什么地方统计用得上呢?,任何领域.,运用统计的领域包括(1),精算农业动物学人类学考古学审计学晶体学人口统计学牙医学生态学经济计量学教育学选举预测和策划工程流行病学,金融水产渔业研究遗传学地理学地质学历史研究人类遗传学水文学工业法律语言学文学劳动力计划管理科学市场营销学医学诊断,气象学军事科学核材料安全管理眼科学制药学物理学政治学心理学心理物理学质量控制宗教研究社会学调查抽样分类学气象改善搏采,等等.,统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics),计量经济学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(DataMining)的方法主体都是统计。以归纳为主要思维方式的统计不是以演绎为主的数学,第二章:数据的收集,二手数据(Secondarydata)-从报纸、书刊、电视看到的数据。-从网站上找到的数据-由公司或组织专门收集和维护数据-由政府机构收集和维护比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出院人数等等),原始数据(一手数据,Primarydata-要去收集-用科学的方法书:抽样调查(samplingtechniques)-例子:预测美国总统大选结果某个决策的民意调查中国人口普查,原始数据收集方法,试验数据(experimentaldata)观测数据(observationaldata)-电话调查(Telephonesurvey)-邮寄问卷(Mailquestionnaires)-直接观测和面对面访问(Directobservationandpersonalinterview),实验数据例:冶炼金属-该金属的强度高为目标-金属强度与温度和时间长短有关-寻找最佳温度和时间,如何分析数据?方差分析,2.电话调查要点(邮件问卷情况相同)定义关心的调查问题定义所关心的总体专家开发调查问题小规模试用pre-test决定样本量和抽样方法samplesize抽取样本并进行调查,电话调查-要解释调查目的purposeofthesurvey-要调查的人是否能通过电话找到-时间要短-固定结果问题Closed-endquestions-告诉被访者结果保密-花费相对不太高、有效率,3.邮件问卷花费低问卷可含固定结果和不固定结果问题(bothclosed-endandopen-endquestions)使参加者有更多时间完成问卷提供更准确可靠的数据,固定结果的问题Closed-endquestions如:“请问你所属的党派-是共和党、民主党还是其他党派?不固定结果问题Open-endquestions如:“你所属的党派?,4.直接观测和面对面采访直接观测:是否系安全带、新影电影是否成功面对面访采访personalinterview固定问题Structuredinterview(scripted)不固定问题unstructuredinterview,数据收集注意事项1.查找一下是否有二手数据存在2.在利用二手数据之前,要核实数据来源,确认收集和录入的数据符合你的研究目的3.要注意一下偏差(bias).如:不回答是否随机,否则数据会有系统偏差,抽样偏差,有些人可能会在回答某些敏感问题时撒谎,如何用一部分数据较好地代表所有数据与抽样有关的概念:总体、样本、个体和样本量普查和抽样框参数和统计量,确定观测对象和范围(总体):按户口所在地,还是居住地,还是出生地?抽出多少人?如何抽?随机?两省各自随机抽取5000人男女各半(样本).利用这10000个数据回答所关心的问题(T-test,T检验),例:广东省和山东省成年人身高比较-前者不如后者高?,此例中,单个山东和广东人或个人的身高数据称为个体(individual)而称所有所有山东和广东人或他们的身高数据为总体(population),总体是包含所有要研究的个体的集合。抽样抽到的人或身高数据称为该总体的样本(sample),样本是总体的一部分。样本中个体的个数-样本量(samplesize),总体、样本、个体和样本量,当然,也有可能试图调查所有的人(比如人口普查),叫做普查(census).抽样框(Frame)所关心的所有对象或个-是总体的一部分,普查和抽样框,参数和统计量参数(parameter)-从整个总体达到的平均值或百分比等描述性数据.而从样本中得到的相应的数据称为统计量Statistics.,一些常用的抽样方法,1简单随机样本,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样(simplerandomsampling),而这样得到的样本则称为简单随机样本(randomsample).如:通常的抽奖、抓阄问卷调查中,没有随机找人回答问卷而是找一些你认识的人填写问卷-这种样本也不是随机样本,而是方便样本(conveniencesample)。,2.系统抽样(systematicsampling):先把总体中的单元编号,然后随机选取其中之一作为抽样的开始点,然后从开始点按照编号进行等距抽样例:从60人的一班人中,随机抽出5人,如开始点为10号,“距离”为12,则调查对象为:10号、22号、34号、46号、58号-如果原始名单号是随机的,得到的抽样对象是随机的。,3.整群抽样(clustersampling):先把总体划分成若干群(cluster),再(通常是随机地)从这些群中抽取几群;然后再在这些群中随机地抽取个体。例:在某县进行调查,首先在所有村中选取若干村子,然后只对这些村子的人进行调查。显然,如果各村情况差异不大,这种抽样还是方便的。,4分层抽样(stratifiedsampling)。这是先把要研究的总体按照某些性质分类(stratum),再在各类中分别随机抽取样本。例1:经理意见调查-目标是从大、小企业得到各200有效问卷例2:按照教育程度把要访问的人群分成几类;每一类中调查和该类成比例数目的人。以确保每一类都有按比例的代表。,5.多级抽样(multistagesampling)。在群体很大时,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只对最后选定的最下面一级进行调查。例:在全国调查时,先抽取省,再抽取市地,再抽取县区,再抽取乡、村直到户。,抽样方法的选择不能一概而论,实际上每个抽样通常都可能是各种抽样方法的组合。如:在多级抽样中的每一级也可采取各种抽样方法。此时,整个抽样计划可能比较复杂,也称为多级混和型抽样制定抽样方案时既要考虑精确度,还要根据客观情况考虑方便性、可行性和经济性。不能一概而论。,数据类型:-定量数据Quantitative-定性数据Qualitative-时间序列Timeseries-截面数据Cross-sectional,当变量所取的值是数量时称为定量变量(quantitativevariable)如:收入(元)、重量(kg)、身高(cm)、某企业广告投入(元)、某企业销售额(元)取非数量值的变量就称为定性变量或分类变(qualitativeorcategoricalornominalvariable)如:学历(中学、高中、本科、研究生)观点(赞成、反对)性别(男、女)国家(中国、美国、英国、加拿大)收入(低、中、高三个水平)-定性变量也可数量来描述,比如男性和女性的数目,用这些数量来建立模型,定量和定性变量,时间序列数据和截面数据时间序列数据(Timeseriesdata):某人自工作以来每年的收入中国1998-2008的每年的人均GDP某厂2008年度每周出现的废品率你所在城市自1970年来每年的人口数截面数据(Cross-sectionalData):2008年某大学本科学生成绩,数据度量级别(measurementLevels)1.定性、名义数据(Nominaldata)2.有序数据(Ordinaldata)3.区间数据(Intervaldata)4.比率数据(Ratiodata),定性或名义数据(Nominaldata)-最低级形式的数据-可以对类别编号-我们对所用的编号有决定权婚姻状态Maritalstatus:1.Married2.Single3.Divorced4.Other或M.MarriedS.SingleD.DivorcedO.Other性别:1男2女,2.有序数据Ordinal(rank)data:-比名义数据高一级别-数据的类别是有序的满意度levelofsatisfaction:1.exceptional2.verygood3.good4.satisfactory5.unsatisfactory,3.区间数据Intervaldata:-任两点的距离是可以精确度量出来的-数据有循序性质(,or=).如:温度(华氏和摄氏FahrenheitandCelsius),4.比例数据Ratiodata:-有区间数据的特点+有真正的有意义的零点-是最高的度量级别-如:体重,高度,距离,钱包里的钱数0温度$0口袋没钱,计算机中常用的数据形式-数据是由一些变量和它们的观测值所组成。-例子有6个变量:观点(观测值为支持、反对和不知道三种)、教育程度(有高中低三种取值,用H、M、L表示)、月收入(取值为实际数字)、性别(取值有男女两个,用M和F表示)以及地区号(用数字1,2,3,4表示)等。-该表一共有1364个观测值(问卷回答)。-每一列为一个变量的不同观测值;-而每一行则称为一个观测值,它是个由数量值和属性值组成的向量,统计软件,SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。Excel:严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算画图功能。SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。S-plus:这是R出现之前统计学家最喜爱的软件。R软件:这是一个免费的,由志愿者管理的软件。其编程语言。可以看成S-plus免费版本,作业,1举出一些观测数据、试验数据、原始数据(一手数据)和二手数据的例子。2举例说明什么是名义数据、有序数据、区间数据和比例数据3举例说明什么是定量变量、定性变量、时间序列数据和截面数据4.举例说明什么是简单随机样本、系统抽样、整群抽样、分层抽样、多级抽样5.在课上,老师忽然想知道某BMA班60个学生的工作经验情况-平均工龄(年),随机地问了15个学生的工龄。请说明此例中什么是总体、样本、个体、样本量、参数和统计量,第三章数据的描述DescriptiveStatistics描述统计-用表格、图形和数值对数据进行直观的描述,广告投入和销售额之间的关系,例1.1(数据ads.sav,ads.txt)显示了某企业的广告投入和销售额之间的关系(万元)。,散点图,定量变量的图表示直方图、盒形图、茎叶图和散点图例3.1(数据Rich.sav)该数据摘自福布斯是世界富豪排行榜,展示了世界最富有的一些人的名次(Rank,为正整数,越小越富),所属区域(Region,1至5分别代表北美、欧洲、亚洲和太平洋、南美、非洲),年龄(Age)和净财富(NetWorth,单位10亿美圆),点击Rich.sav-直方图:SPSS选Graphs-legacydialogs-histogram-盒形图:SPSS中Graphs-legacydialogs-boxplot-茎叶图:SPSS选Analyze-DescriptiveStatistics-Explore,把变量Age选入到DependentList,再把Region选入FactorList,然后OK即可得到各个区域富人年龄的茎叶图。-散点图:SPSS中Graphs-legacydialogsscatter/dots-simplescatter,1.0WilliamGatesIIIUnitedStatesNAM50.050.0UnitedStates2.0WarrenBuffettUnitedStatesNAM75.042.0UnitedStates3.0CarlosSlimHeluMexicoNAM66.030.0Mexico4.0IngvarKampradSwedenEU79.028.0Switzerland5.0LakshmiMittalIndiaAS55.023.5UnitedKingdom6.0PaulAllenUnitedStatesNAM53.022.0UnitedStates7.0BernardArnaultFranceEU57.021.5France8.0PrinceAlwaleedBinTalalSaudiArabiaAS49.020.0SaudiArabia9.0KennethThomson&familyCanadaNAM82.019.6Canada10.0LiKa-shingHongKongAS77.018.8HongKong11.0RomanAbramovichRussiaEU39.018.2UnitedKingdom,Ranknamecitizenshipregionagenetworthresident,直方图(histogram),横坐标是年龄区间,纵坐标高度是落在相应的年龄区间里的人数,直方图(histogram),横坐标财富区间,纵坐标高度是落在相应的财富区间里的人数,盒形图(boxplot,Box-whisker),盒子中间横线是中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点),按SPSS默认,如所有样本都在离四分位点1.5倍盒长之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒长,在其外面的点被软件认为是离群点(outlier);而超过盒长三倍的被认为是极端值(extreme)。,茎叶图Stem-and-leaf,茎叶图Stem-and-leaf,茎叶图Stem-and-leaf,茎叶图Stem-and-leaf,AgeStem-and-LeafPlotforRegion=NorthAmericaFrequencyStem&Leaf3.003.2348.003.7778899919.004.001111112223334444423.004.5566666677788888899999937.005.000000000011111222222333333333344444434.005.555555666666666677777788888889999963.006.00000001111111111112222222222223333333333333334444444444444444454.006.55555555666666666777777777788888888888889999999999999950.007.0000000000001111222222222333333333333344444444444449.007.555555556666666666667777777777888888888899999999931.008.000000000011122222222222333344415.008.5556666677888894.009.00112.009.77Stemwidth:10.00Eachleaf:1case(s),茎叶图Stem-and-leaf,茎叶图Stem-and-leaf,散点图Scatterplot,例3.2(数据marriage.sav)美国男士和女士初婚年龄的数据。该数据描述了自1900年到1998年男女第一次结婚的年龄的中位数。自1900到1960年是每十年一个值,以后到1990是每五年取一个数,1995年以后每年一个数。-横坐标(如年份),另外男士和女士结婚年龄为纵坐标来画散点图。SPSS选项为Graphs-legacydialogs-line-multiple(valuesofindividualcases),然后把男、女放在linesrepresent把年选入Variable(categorylabels),OK.点击图形做细致改动-在60年代婚姻年龄降低,而后来又升高。而男子结婚年龄平均比女性高,定性变量的图表示:饼图和条形图,例3.3(数据language.sav)说世界各种主要语言(包括母语和日常使用)的人数饼图:选SPSS中Graphs-legacydialogspie(valuesofindividualcases),点击define.将母语放入slicesrepresent,将语种放入slicelabels-variable点击OK条形图:选SPSS中Graphs-legacydialogsbarcharts-clustered(summariesofseparatevariables),点击define.将母语和日常用语放入barrepresent,语种放入categoryaxis点击OK,点击饼图,可对图做细微改进。在properties中点击textstyle将FangSong放入Font点击datavaluelabels将percent和“语种”放入Labelsdisplayed,如何用少量数字来概括数据?,例(数据:grade.sav)两个班级同一门课的成绩,就下面两种情况分析这两个班的成绩1.一个任课老师,两个班在一起上课2.两个任课老师-点击grade.sav,选Graphs-legacydialogs-histogram,将得分放入variable中,将班级放入panelbyRows,可以选displaynormalcurve,如果一个老师,两个班一起上课,看见A.一班学生成绩好于二班B.与二班相比,一班好坏生差异大“位置”统计量(locationstatistic)“尺度”统计量(scalestatistic),“位置”统计量(locationstatistic),均值(mean):样本值的算术平均值中位数(median):中间大小的数(一半样本点小于中位数)(第一或第三)(下、上)四分位数(点)(first,thirdquantile)(分别有1/4,3/4的数小于它们)k-百分位数(k-percentile)a分位数(acentile):k-百分位数=k%分位数:有k%的数目小于它众数(mode):样本中出现最多的数,尺度统计量(scalestatistic)-描述数据集中与分散程度,极差(range):极端值之差四分位间距(四分位极差)(interquantilerange)四分位数之差标准差(standarddeviation)方差平方根方差(variance)各点到均值距离平方的平均,注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。,练习,有20个人的成绩233.23.23.53.53.53.8444444.54.54.54.54.84.85求1.中位数(median)、上下四分位数、众数(mode)、2.极差(range)、四分位数之差、标准差(standarddeviation)和方差(variance),SPSS选Analyze-DescriptiveStatistics-Explore,把变量得分选入到DependentList,再把班级选入FactorList,点击statistics选descriptives和percentiles然后OK,如果两个老师,而学生水平差不多,成绩不同是由于老师的评分标准不同导致一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?怎么比较才能合理呢?,把数据进行标准化,然后再比较标准化后的数据。某观测值xi的标准得分定义为在我们的例子中,张颖的标准得分为(90-78.53)/9.431.22,而刘疏的标准得分为(82-70.19)/71.69。显然如果两个班级平均水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。,作业,1根据你的经验,给出定性和定量变量的例子。2对于问题1中你的例子,试图画出各种描述性图形并计算汇总统计量。3举例说明如何计算众数、中位数和均值4举例说明尺度统计量说明了数据的什么特性。5标准得分实际上是对原始数据的一种标准化。试举出标准得分的用处。,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据描述方法 数据 描述 方法 PPT 课件
装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文