统计学重点

上传人:zou****hua 文档编号:177634023 上传时间:2022-12-26 格式:DOCX 页数:17 大小:20.79KB
收藏 版权申诉 举报 下载
统计学重点_第1页
第1页 / 共17页
统计学重点_第2页
第2页 / 共17页
统计学重点_第3页
第3页 / 共17页
资源描述:

《统计学重点》由会员分享,可在线阅读,更多相关《统计学重点(17页珍藏版)》请在装配图网上搜索。

1、第 1 章 统计和统计数据1. 统计学概念: 统计学是收集、处理、分析、解释数据,并从数据中得出结论的科学。2. 数据的类型:(1)分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果, 数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类。(2)顺序数据:只能归于某一有序类别的非数字型数据,对事物类别顺序的测 度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品等。(3)数值型数据:按数字尺度测量的观察值,结果表现为具体的数值,对事物 的精确测度。例如,身高为 175cm、168cm、183cm。3. 总体:所研究的全部个体(数据)的集合,其中的每一

2、个个体也称为元素,分为 有限总体和无限总体。4. 参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征 值。5. 样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量。6. 统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的 一些量,是样本的函数。第2章数据的表展示1. 数据的预处理:(了解)数据审核检查数据中的错误数据筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征数据透视按需要汇总2. 分类数据的整理与图示分类数据的描述统计量:频数:落在各类别中的数据个数。比例:某一类别数据个数占全部数据个数的比值。 百分比:将对比的基

3、数作为 100 而计算的比值。比率:不同类别数值个数的比值。生成频数分布表:(分类数据)(1)列出各类别(2)计算各类别的频数(3)生成频数分布表3. 顺序数据的整理与图示:(1)累积频数:各类别频数的逐级累加。(2)累积频率:各类别频率(百分比)的逐级累加4. 数值型数据的整理与图示:分组方法:(1)单变量值分组 将一个变量值作为一组; 适合于离散变量; 适合于变量值较少的情况。(2)组距分组将变量值的一个区间作为一组; 适合于连续变量; 适合于变量值较多的情况; 需要遵循“不重不漏”的原则;可采用等距分组,也可采用不等距分组。组距分组 (几个概念)(1)下限:一个组的最小值(2)上限:一个

4、组的最大值(3)组距:上限与下限之差(4)组中值:下限与上限之间的中点值组中值 =下限值+上限值/25. 分组数据直方图(1)用于展示分组数据分布的一种图形。(2)用矩形的宽度和高度来表示频数分布 ,本质上是用矩形的面积来表示频数分 布。(3)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应 的频数就形成了一个矩形,即直方图。(直方图与条形图的区别)(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别) 则是固定的。(2)直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百 分比,宽度则表示各组的组距,其高度与宽度均有意义。(3)直方图的各矩形

5、通常是连续排列,条形图则是分开排列。(4)条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。6. 未分组数据茎叶图(1)用于显示未分组的原始数据的分布;(2)由“茎”和“叶”两部分构成,其图形是由数字组成的;(3)以该组数据的高位数值作树茎,低位数字作树叶;(4)树叶上只保留最后一位数字;(5)茎叶图类似于横置的直方图,但又有区别: 直方图可观察一组数据的分布状况,但没有给出具体的数值; 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据 的信息;直方图适用于大批量数据,茎叶图适用于小批量数据。7. 未分组数据箱线图(1)用于显示未分组的原始数据的分布。(2)箱线图

6、是由一组数据的最大值、最小值、中位数、两个四分位数这 5 个值 绘制而成的。 中位数是一组数据排序后处于中间位置上的变量值。 四分位数是一组数据排序后处在数据25%位置和75%位置上的两 个分位数值。(3)绘制方法: 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)。连接两个四分位数画出箱子,再将两个极值点与箱子相连接。第 3 章 数据的概括性度量1. 集中趋势:(1)一组数据向其中心值靠拢的倾向和程度。(2)测度集中趋势就是寻找数据水平的代表值或中心值。(3)不同类型的数据用不同的集中趋势测度值。(4)低层次数据的测度值适用于高层次

7、的测量数据,但高层次数据的测度值并 不适用于低层次的测量数据。3.1.1 平均数: 平均数:也称为均值,常用的统计量之一;消除了观测值的随机波动; 易受极端值的影响;根据总体数据计算的,称为平均数;根据样本数据计算的, 称为样本平均数。3.1.2 中位数、四分位数和众数: 中位数:排序后处于中间位置上的值。不受极端值影响。四分位数:排序后处于 25%和 75%位置上的值,不受极端值影响。 众数:一组数据中出现次数最多的变量值;适合于数据量较多时使用; 不受极端值的影响;一组数据可能没有众数或有几个众数。3.1.3 各度量值的比较:众数、中位数、平均数的特点和应用平均数:易受极端值影响,数学性质

8、优良,实际中最常用,数据对称分布或接 近对称分布时代表性较好。中位数:不受极端值影响,数据分布偏斜程度较大时代表性接好。众数:不受极端值影响,具有不惟一性,数据分布偏斜程度较大且有明显峰值时 代表性较好。2. 方差和标准差:(1)数据离散程度的最常用测度值;(2)反映各变量值与均值的平均差异;(3)根据总体数据计算的,称为总体方差(标准差);根据样本数据计算的,称 为样本方差(标准差)。标准分数:(1)也称标准化值。(2)对某一个值在一组数据中相对位置的度量。(3)可用于判断一组数据是否有离群点。(4)用于对变量的标准化处理。(5)均值等于 0,方差等于 1。3. 离散系数:比较几组数据的离散

9、程度。离散系数(1)标准差与其相应的均值之比。(2) 对数据相对离散程度的测度。(3) 消除了数据水平高低和计量单位的影响。(4) 用于对不同组别数据离散程度的比较。4偏态(简单了解)(1 )统计学家K.Pearson于1895年首次提出,是指数据分布的不对称性。(2) 测度统计量是偏态系数。(3) 偏态系数=0 为对称分布;0为右偏分布;0为左偏分布。(4) 偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5 1或-1 - -0.5 之间,为是中等偏态分布;偏态系数越接近 0,偏斜程度就越低。5.峰态(简单了解)( 1)统计学家 Pearson 于 1905 年首次提出( 2)数据分

10、布扁平程度的测度( 3)峰态系数=0 扁平峰度适中( 4)峰态系数0为扁平分布( 5)峰态系数0为尖峰分布第 4 章 抽样与参数估计1. 概率抽样:(1) 也称随机抽样;(2) 特点;按一定的概率以随机原则抽取样本;抽取样本时使每个单位都有一定的机会被抽中;每个单位被抽中的概率是已知的,或是可以计算出来的;当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中 的概率。2. 简单随机抽样:(1) 从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样 本的概率是相等的;(2) 最基本的抽样方法,是其它抽样方法的基础;( 3 )特点: 简单、直观,在抽样框完整时,可直接从中抽取样本; 用

11、样本统计量对目标量进行估计比较方便。( 4 )局限性: 当 N 很大时,不易构造抽样框; 抽出的单位很分散,给实施调查增加了困难; 没有利用其它辅助信息以提高估计的效率。3. 分层抽样:(1) 将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。( 2 )优点: 保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便; 既可以对总体参数进行估计,也可以对各层的目标量进行估计。4. 系统抽样:(1)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随 机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本 单位。先从数字1到k

12、之间随机抽取一个数字r作为初始单位,以后依次 取叶k ,叶2k等单位。(2)优点:操作简便,可提高估计的精度(3)缺点:对估计量方差的估计比较困难5. 整群抽样:(1)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对选中 群中的所有单位全部实施调查。(2)特点: 抽样时只需群的抽样框,可简化工作量; 调查的地点相对集中,节省调查费用,方便调查的实施; 缺点是估计的精度较差。6. 抽样分布:(1) 定义:在重复选取样本量为 n 的样本时,由该统计量的所有可能取 值形成的相对频数分布,称为抽样分布。(2) 抽样分布是样本统计量(理论分布) 例如:样本均值的分布、样本比例的分布、样本方差的

13、分布。7. 样本均值的抽样分布:(1) 在重复选取样本量为 n 的样本时,由样本均值的所有可能取值形成 的相对频数分布。(2)进行推断总体总体均值卩的理论基础。8中心极限定理:设从均值为卩,方差为c2的一个任意总体中抽取容量为n的 样本,当n充分大时,样本均值的抽样分布近似服从均值为p、方差为o2/n的正 态分布。9. 参数估计:就是用样本统计量去估计总体的参数。10. 区间估计:(1) 在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统 计量加减估计误差而得到。(2) 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给 出一个概率度量。比如,某班级平均分数在7585

14、之间,置信水平是95%。11. 置信水平:(1) 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的 次数所占的比例,也称置信度。(2) 表示为(1 - a%) a为是总体参数未在区间内的比例( 3 )常用的置信水平值有 99%, 95%, 90% 相应的 a 为 0.01 ,0.05 ,0.10第 5 章 假设检验1. 假设检验:先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判 断假设是否成立的统计方法。2. 原假设:(1) 又称“0 假设”,研究者想收集证据予以反对的假设,用 H0 表示。(2) 所表达的含义总是指参数没有变化或变量之间没有关系。(3) 最初被假设是成立

15、的,之后根据样本数据确定是否有足够的证据拒 绝它 。(4) 总是有符号=, 或 H0 :卩=某一数值 H0 :卩 某一数值 H0 :卩某一数值例如,H0 :卩=10cm3. 配合假设: (1)也称“研究假设”,研究者想收集证据予以支持的假设,用 H1 或 Ha 表示。(2)所表达的含义是总体参数发生了变化或变量之间有某种关系。(3)备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收 集证据拒绝原假设,以支持备择假设。(4)总是有符号H,V或 H1:卩工某一数值 H1 :卩某一数值 H1 :卩 某一数值4. 提出假设: (结论与建议)(1)原假设和备择假设是一个完备事件组,而且相互

16、对立; 在一项假设检验中,原假设和备择假设必有一个成立,而且只有一 个成立。(2)先确定备择假设,再确定原假设;(3)等号“=”总是放在原假设上;(4)因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同 的结论)。5. 双侧检验与单侧检验:(1) 备择假设没有特定的方向性,并含有符号“H”的假设检验,称为双侧 检验或双尾检验。(2) 备择假设具有特定的方向性,并含有符号“”或“”的假设检验,称为 单侧检验或单尾检验。备择假设的方向为“”,称为左侧检验备择假设的方向为“”,称为右侧检验6. 两类错误:( 1 ) 研究者总是希望能做出正确的决策,但由于决策是建立在样本信息 的基础之上,而样本又是随机的,因而就有可能犯错误。(2) 原假设和备择假设不能同时成立,决策的结果要么拒绝H0,要么不 拒绝H0。决策时总是希望当原假设正确时没有拒绝它,当原假设不正确 时拒绝它,但实际上很难保证不犯错误。(3) 第I类错误但错误) 原假设为正确时拒绝原假设;第I类错误的概率记为a ,被称为显著性水平。第II类错误(卩错误) 原假设为错误时未拒绝原假设;第II类错误的概率记为卩(Beta)。总体均值、比例的区间估计;样本量的确定;检验统计量的三个图形;总体比例 的假设检验详细见 ppt(10 张)。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!