统计学第3章概率与概率分布.ppt
《统计学第3章概率与概率分布.ppt》由会员分享,可在线阅读,更多相关《统计学第3章概率与概率分布.ppt(88页珍藏版)》请在装配图网上搜索。
3 1 第3章概率与概率分布 3 1随机事件及其概率3 2随机变量及其概率分布3 3大数定律与中心极限定理 3 2 学习目标 理解随机事件的概念 了解事件之间的关系理解概率的三种定义 掌握概率运算的法则理解随机变量及其概率分布的概念掌握二项分布 泊松分布和超几何分布的背景 均值和方差及其应用掌握正态分布的主要特征和应用 了解均匀分布的应用理解大数定律和中心极限定理的重要意义 3 3 3 1随机事件及其概率 一 随机试验与随机事件二 随机事件的概率三 概率的运算法则 3 4 一 随机试验与随机事件 3 1随机事件及其概率 3 5 必然现象与随机现象 必然现象 确定性现象 变化结果是事先可以确定的 一定的条件必然导致某一结果这种关系通常可以用公式或定律来表示随机现象 偶然现象 不确定现象 在一定条件下可能发生也可能不发生的现象个别观察的结果完全是偶然的 随机会而定大量观察的结果会呈现出某种规律性 随机性中寓含着规律性 统计规律性 十五的夜晚能看见月亮 十五的月亮比初十圆 3 6 随机试验 严格意义上的随机试验满足三个条件 试验可以在系统条件下重复进行 试验的所有可能结果是明确可知的 每次试验前不能肯定哪一个结果会出现 广义的随机试验是指对随机现象的观察 或实验 实际应用中多数试验不能同时满足上述条件 常常从广义角度来理解 3 7 随机事件 事件 随机事件 简称事件 随机试验的每一个可能结果常用大写英文字母A B 来表示基本事件 样本点 不可能再分成为两个或更多事件的事件样本空间 基本事件的全体 全集 3 8 随机事件 续 复合事件由某些基本事件组合而成的事件样本空间中的子集随机事件的两种特例必然事件在一定条件下 每次试验都必然发生的事件只有样本空间 才是必然事件不可能事件在一定条件下 每次试验都必然不会发生的事件不可能事件是一个空集 3 9 二 随机事件的概率 3 1随机事件及其概率 1 古典概率2 统计概率3 主观概率4 概率的基本性质 3 10 随机事件的概率 概率用来度量随机事件发生的可能性大小的数值必然事件的概率为1 表示为P 1不可能事件发生的可能性是零 P 0随机事件A的概率介于0和1之间 0 P A 1概率的三种定义 给出了确定随机事件概率的三条途经 3 11 概率的古典定义 古典概型 等可能概型 具有以下两特点每次试验的可能结果有限 即样本空间中基本事件总数有限 每个试验结果出现的可能性相同 它是概率论的发展过程中人们最早研究的对象 3 12 概率的古典定义 概率的古典定义前提 古典概型定义 公式 计算古典概率常用到排列组合知识 3 13 例3 1 设有50件产品 其中有5件次品 现从这50件中任取2件 求抽到的两件产品均为合格品的概率是多少 抽到的两件产品均为次品的概率又是多少 解 任一件被抽到的机会均等 而且从50件产品中抽出2件相当于从50个元素中取2个进行组合 共有C502种可能 所以这是一个古典概型 3 14 概率的统计定义 当试验次数n很大时 事件A发生频率m n稳定地在某一常数p上下波动 而且这种波动的幅度一般会随着试验次数增加而缩小 则定义p为事件A发生的概率 当n相当大时 可用事件发生的频率m n作为其概率的一个近似值 计算概率的统计方法 频率方法 3 15 例 补充 根据古典概率定义可算出 抛一枚质地均匀的硬币 出现正面与出现反面的概率都是0 5 历史上有很多人都曾经做过抛硬币试验 3 16 例3 2 某地区几年来新生儿性别的统计资料如下表所示 由此可判断该地区新生儿为男婴的概率是多少 3 17 3 主观概率 有些随机事件发生的可能性 既不能通过等可能事件个数来计算 也不能根据大量重复试验的频率来近似主观概率 依据人们的主观判断而估计的随机事件发生的可能性大小例如某经理认为新产品畅销的可能性是80 人们的经验 专业知识 对事件发生的众多条件或影响因素的分析等等 都是确定主观概率的依据 3 18 4 概率的基本性质 非负性 对任意事件A 有0 P A 1 规范性 必然事件的概率为1 即 P 1不可能事件的概率为0 即 P 0 可加性 若A与B互斥 则 P A B P A P B 对于多个两两互斥事件A1 A2 An 则有 P A1 A2 An P A1 P A2 P An 上述三条基本性质 也称为概率的三条公理 3 19 补充 关于概率的公理化定义 概率的以上三种定义 各有其特定的应用范围 也存在局限性 都缺乏严密性 古典定义要求试验的基本事件有限且具有等可能性统计定义要求试验次数充分大 但试验次数究竟应该取多大 频率与概率有多么接近都没有确切说明主观概率的确定又具有主观随意性苏联数学家柯尔莫哥洛夫于1933年提出了概率的公理化定义 通过规定应具备的基本性质来定义概率公理化定义为概率论严谨的逻辑推理打下了坚实的基础 3 20 三 概率的运算法则 3 1随机事件及其概率 1 加法公式2 乘法公式3 全概率公式和贝叶斯公式 3 21 1 加法公式 用于求P A B A发生或B发生 的概率互斥事件 互不相容事件 不可能同时发生的事件没有公共样本点 P A B P A P B 互斥事件的加法公式 P A1 A2 An P A1 P A2 P An 3 22 例3 3 设有50件产品 其中有5件次品 现从这50件中任取2件 若问至少抽到一件次品的概率 解 至少抽到一件次品 这一事件实质上就是 抽取的2件产品中有一件次品 记为A 与 抽取的两件产品均为次品 记为B 这两个事件的和 由于A与B是两个互斥事件 故计算 至少抽到一件次品 的概率采用公式 P A B P A P B 3 23 互补事件 互补事件不可能同时发生而又必然有一个会发生的两个事件互补事件的概率之和等于1 A A 例如 掷一个骰子 出现2点 的概率是1 6 则 不出现2点 的概率就是5 6 3 24 相容事件的加法公式 相容事件两个事件有可能同时发生没有公共样本点相容事件的加法公式 广义加法公式 P A B P A P B P AB 事件的积 交 AB 事件的和 并 3 25 例3 4 将分别写有0至9这十个号码的小球装入一容器中 反复搅拌之后任意摇出一个小球 观察其号码 试求出现 奇数或大于等于4的数 的概率 解 所求事件 奇数 A 大于等于4的数 B 0 1 2 3 9 A 1 3 5 7 9 B 4 5 6 7 8 9 由于等可能性 P A 5 10 P B 6 10 P A P B 1 显然P A B P A P B 因为A和B存在共同部分AB 5 7 9 P AB 3 10 在P A P B 中P AB 被重复计算了 正确计算是 P A B 5 10 6 10 3 10 8 10 0 8 3 26 2 乘法公式 用于计算两个事件同时发生的概率 也即 A发生且B发生 的概率P AB 先关注事件是否相互独立 3 27 1 条件概率 条件概率 在某些附加条件下计算的概率在已知事件B已经发生的条件下A发生的条件概率 P A B 条件概率的一般公式 其中P B 0 3 28 例3 5 某公司甲乙两厂生产同种产品 甲厂生产400件 其中一级品为280件 乙厂生产600件 其中一级品有360件 若要从该厂的全部产品中任意抽取一件 试求 已知抽出产品为一级品的条件下该产品出自甲厂的概率 已知抽出产品出自甲厂的条件下该产品为一级品的概率 解 设A 甲厂产品 B 一级品 则 P A 0 4 P B 0 64 P AB 0 28 所求概率为事件B发生条件下A发生的条件概率P A B 0 28 0 64 所求概率为事件A发生条件下B发生的条件概率P B A 0 28 0 4 3 29 P A B 在B发生的所有可能结果中AB发生的概率即在样本空间 中考虑的条件概率P A B 就变成在新的样本空间B中计算事件AB的概率问题了 1 条件概率 续 一旦事件B已发生 3 30 乘法公式的一般形式 P AB P A P B A 或P AB P B P A B 例3 6 对例3 1中的问题 从这50件中任取2件产品 可以看成是分两次抽取 每次只抽取一件 不放回抽样 解 A1 第一次抽到合格品 A2 第二次抽到合格品 A1A2 抽到两件产品均为合格品P A1A2 P A1 P A2 A1 3 31 事件的独立性 两个事件独立一个事件的发生与否并不影响另一个事件发生的概率P A B P A 或P B A P B 独立事件的乘法公式 P AB P A P B 推广到n个独立事件 有 P A1 An P A1 P A2 P An 3 32 3 全概率公式 完备事件组事件A1 A2 An互不相容 A A2 An 且P Ai 0 i 1 2 n 对任一事件B 它总是与完备事件组A1 A2 An之一同时发生 则有求P B 的全概率公式 3 33 例3 7 假设有一道四选一的选择题 某学生知道正确答案的可能性为2 3 他不知道正确答案时猜对的概率是1 4 试问该生作出作答的概率 解 设A 知道正确答案 B 选择正确 选择正确 包括 知道正确答案而选择正确 即AB 不知道正确答案但选择正确 即 P B 2 3 1 1 3 1 4 3 4 3 34 全概率公式 贝叶斯公式 全概率公式的直观意义 每一个Ai的发生都可能导致B出现 每一个Ai导致B发生的概率为 因此作为结果的事件B发生的概率是各个 原因 Ai引发的概率的总和相反 在观察到事件B已经发生的条件下 确定导致B发生的各个原因Ai的概率 贝叶斯公式 逆概率公式 后验概率公式 3 35 贝叶斯公式 若A1 A2 An为完备事件组 则对于任意随机事件B 有 计算事件Ai在给定B条件下的条件概率公式 公式中 P Ai 称为事件Ai的先验概率P Ai B 称为事件Ai的后验概率 3 36 3 2随机变量及其概率分布 一 随机变量的概念二 随机变量的概率分布三 随机变量的数字特征四 常见的离散型概率分布五 常见的连续型概率分布 3 37 一 随机变量的概念 3 2随机变量及其概率分布 3 38 一 随机变量的概念 随机变量 表示随机试验结果的变量取值是随机的 事先不能确定取哪一个值一个取值对应随机试验的一个可能结果用大写字母如X Y Z 来表示 具体取值则用相应的小写字母如x y z 来表示根据取值特点的不同 可分为 离散型随机变量 取值可以一一列举连续型随机变量 取值不能一一列举 3 39 二 随机变量的概率分布 3 2随机变量及其概率分布 1 离散型随机变量的概率分布2 连续型随机变量的概率密度3 分布函数 3 40 1 离散型随机变量的概率分布 X的概率分布 X的有限个可能取值为xi与其概率pi i 1 2 3 n 之间的对应关系 概率分布具有如下两个基本性质 1 pi 0 i 1 2 n 2 3 41 离散型概率分布的表示 概率函数 P X xi pi分布列 分布图 3 42 2 连续型随机变量的概率密度 连续型随机变量的概率分布只能表示为 数学函数 概率密度函数f x 和分布函数F x 图形 概率密度曲线和分布函数曲线概率密度函数f x 的函数值不是概率 连续型随机变量取某个特定值的概率等于0只能计算随机变量落在一定区间内的概率 由x轴以上 概率密度曲线下方面积来表示 3 43 概率密度f x 的性质 1 f x 0 概率密度是非负函数 2 所有区域上取值的概率总和为1 随机变量X在一定区间 a b 上的概率 3 44 3 分布函数 适用于两类随机变量概率分布的描述分布函数的定义 F x P X x 连续型随机变量的分布函数 离散型随机变量的分布函数F x 分布函数与概率密度 3 45 三 随机变量的数字特征 3 2随机变量及其概率分布 1 随机变量的数学期望2 随机变量的方差和标准差3 两个随机变量的协方差和相关系数 3 46 1 随机变量的数学期望 又称均值描述一个随机变量的概率分布的中心位置离散型随机变量X的数学期望 相当于所有可能取值以概率为权数的平均值连续型随机变量X的数学期望 3 47 数学期望的主要数学性质 若k是一常数 则E kX kE X 对于任意两个随机变量X Y 有E X Y E X E Y 若两个随机变量X Y相互独立 则E XY E X E Y 3 48 2 随机变量的方差 方差是它的各个可能取值偏离其均值的离差平方的均值 记为D x 或 2公式 离散型随机变量的方差 连续型随机变量的方差 3 49 方差和标准差 续 标准差 方差的平方根方差和标准差都反映随机变量取值的分散程度 它们的值越大 说明离散程度越大 其概率分布曲线越扁平 方差的主要数学性质 若k是一常数 则D k 0 D kX k2D X 若两个随机变量X Y相互独立 则D X Y D X D Y 3 50 例3 10 试求优质品件数的数学期望 方差和标准差 解 0 6 3 51 3 两个随机变量的协方差和相关系数 协方差的定义 如果X Y独立 不相关 则Cov X Y 0即E XY E X E Y 协方差在一定程度上反映了X Y之间的相关性协方差受两个变量本身量纲的影响 3 52 相关系数 相关系数 具有如下的性质 相关系数 是一个无量纲的值0 0当 0 两个变量不相关 不存在线性相关 当 1 两个变量完全线性相关 3 53 四 常见离散型随机变量的概率分布 3 2随机变量及其概率分布 1 二项分布2 泊松分布3 超几何分布 3 54 1 二项分布 背景 背景 n重贝努里试验 一次试验只有两种可能结果用 成功 代表所关心的结果 相反的结果为 失败 每次试验中 成功 的概率都是pn次试验相互独立 3 55 1 二项分布 在n重贝努里试验中 成功 的次数X服从参数为n p的二项分布 记为X B n p 二项分布的概率函数 二项分布的数学期望和方差 n 1时 二项分布就成了二点分布 0 1分布 3 56 二项分布图形 p 0 5时 二项分布是以均值为中心对称p 0 5时 二项分布总是非对称的p0 5时峰值在中心的右侧随着n无限增大 二项分布趋近于正态分布 p 0 3 p 0 5 p 0 7 二项分布图示 3 57 例3 11 某单位有4辆汽车 假设每辆车在一年中至多只发生一次损失且损失的概率为0 1 试求在一年内该单位 1 没有汽车发生损失的概率 2 有1辆汽车发生损失的概率 3 发生损失的汽车不超过2辆的概率 解 每辆汽车是否发生损失相互独立的 且损失的概率相同 因此 据题意 在4辆汽车中发生损失的汽车数X B 4 0 1 3 58 利用Excel计算二项分布概率 进入Excel表格界面 点击任一空白单元格 作为输出单元格 点击表格界面上的fx命令在 选择类别 中点击 统计 在 选择函数 中点击 BINOMDIST 在Number s后填入试验成功次数x 本例为2 在Trials后填入总试验次数n 本例为4 在Probability s后填入成功概率p 本例为0 1 在Cumulative后填入0 或FALSE 表示计算成功次数等于指定值的概率 BINOMDIST 2 4 0 1 0 用EXCEL计算二项分布的概率 3 59 2 泊松分布 X服从泊松分布 记为X P E X D X 当 很小时 泊松分布呈偏态 并随着 增大而趋于对称当 为整数时 和 1 是最可能值 3 60 泊松分布 应用背景 通常是作为稀有事件发生次数X的概率分布模型 一段时间内某繁忙十字路口发生交通事故的次数一定时间段内某电话交换台接到的电话呼叫次数 服从泊松分布的现象的共同特征在任意两个很小的时间或空间区间内事件发生次数是相互独立的 各区间内事件发生次数只与区间长度成比例 与区间起点无关 在一段充分小的区间内事件发生两次或两次以上的概率可以忽略不计 3 61 例3 12 设某种报刊的每版上错别字个数服从 2的泊松分布 随机翻看一版 求 1 没有错别字的概率 2 至多有5个错别字的概率 解 设X 每版上错别字个数 则所求概率为 利用EXCEL计算泊松分布的概率 3 62 二项分布的泊松近似 前提 当n很大而p又很小时 二项分布可用参数 np的泊松分布近似 例3 13 一工厂有某种设备80台 配备了3个维修工 假设每台设备的维修只需要一个维修工 设备发生故障是相互独立的 且每台设备发生故障的概率都是0 01 求设备发生故障而不能及时维修的概率是多少 解 X B n 80 p 0 01 由于np 0 8很小 可以用 0 8的泊松分布来近似计算其概率 3 63 3 超几何分布 N个单位的有限总体中有M个单位具有某特征 用不重复抽样方法从总体中抽取n个单位 样本中具有某种特征的单位数X服从超几何分布 记为X H n N M 数学期望和方差 N很大而n相对很小时 趋于二项分布 p M N 3 64 五 常见的连续型概率分布 1 均匀分布X只在一有限区间 a b 上取值且概率密度是一个常数其概率密度为 X落在子区间 c d 内的概率与该子区间的长度成正比 与具体位置无关 P c X d 3 65 2 正态分布 X N 2 其概率密度为 正态分布的均值和标准差均值E X 方差D X 2 x 3 66 2 正态曲线 正态曲线的主要特性关于x 对称的钟形曲线参数 决定正态曲线的中心位置参数 决定正态曲线的陡峭或扁平程度以X轴为渐近线 即当x 时 f x 0 3 67 标准正态分布 0 1的正态分布 记为N 0 1 其概率密度 x 分布函数 x X N 2 则 Z N 0 1 若Z N 0 1 则有 P Z a 2 a 1 a 1 a 标准化 3 68 例3 14 某厂生产的某种节能灯管的使用寿命服从正态分布 对某批产品测试的结果 平均使用寿命为1050小时 标准差为200小时 试求 a 使用寿命在500小时以下的灯管占多大比例 b 使用寿命在850 1450小时的灯管占多大比例 c 以均值为中心 95 的灯管的使用寿命在什么范围内 3 69 解 X 使用寿命 X N 1050 2002 2 1 0 97725 0 15865 0 8186 95 的灯管寿命在均值左右392 即658 1442 小时 1 2 75 1 0 99702 0 00298 3 70 3 原则 X 3 的概率很小 因此可认为正态随机变量的取值几乎全部集中在 3 3 区间内广泛应用 产品质量控制判断异常情况 3 71 正态分布最常用 最重要 大千世界中许多常见的随机现象服从或近似服从正态分布例如 测量误差 同龄人的身高 体重 一批棉纱的抗拉强度 一种设备的使用寿命 农作物的产量 特点是 中间多两头少 由于正态分布特有的数学性质 正态分布在很多统计理论中都占有十分重要的地位正态分布是许多概率分布的极限分布统计推断中许多重要的分布 如 2分布 t分布 F分布 都是在正态分布的基础上推导出来的 3 72 用正态分布近似二项分布 X B n p 当n充分大时 X N np np 1 p 例3 15 假设有一批种子的发芽率为0 7 现有这种种子1000颗 试求其中有720颗以上发芽的概率 解 设X 发芽种子颗数 X B 1000 0 7 近似地X N 700 210 P X 720 P Z 1 38 1 P Z 1 38 1 0 9162 0 0838 3 73 用正态分布近似二项分布 用正态分布近似二项分布的前提n很大 p不能太接近0或1 否则二项分布太偏 一般要求np和np 1 p 都要大于5如果np或np 1 p 小于5 二项分布可以用泊松分布来近似 3 74 计算正态分布的概率值 方法一 先标准化 查标准正态分布函数值表方法二 利用Excel来计算 不必标准化 插入函数fx 选择 统计 NORMDIST 进入 函数参数 对话框中 在X后填入正态随机变量的取值区间点 在Mean后填入正态分布的均值 在Standard dev后填入正态分布的标准差 在Cumulative后填入1 或TRUE 表示计算随机变量取值小于等于指定值x的累积概率值 3 75 也可在选定的输出单元格中 顺次输入函数名和参数值即可如输入 NORMDIST 500 1050 200 1 确定后即可得到所求概率值0 0029798 根据概率值F X x 求随机变量取值的区间点x 选择函数 NORMINV 如输入 NORMINV 0 0029798 1050 200 显示计算结果为500 计算正态分布的概率值 3 76 3 3大数定律与中心极限定理 一 大数定律二 中心极限定理 3 77 一 大数定律 3 3大数定律与中心极限定理 1 独立同分布大数定律2 贝努里大数定律 3 78 独立同分布大数定律 大数定律是阐述大量同类随机现象的平均结果的稳定性的一系列定理的总称 独立同分布大数定律 设X1 X2 是独立同分布的随机变量序列 且存在有限的数学期望E Xi 和方差D Xi 2 i 1 2 则对任意小的正数 有 3 79 大数定律 续 该大数定律表明 当n充分大时 相互独立且服从同一分布的一系列随机变量取值的算术平均数 与其数学期望 的偏差任意小的概率接近于1 该定理给出了平均值具有稳定性的科学描述 从而为使用样本均值去估计总体均值 数学期望 提供了理论依据 3 80 贝努里大数定律 设m是n次独立重复试验中事件A发生的次数 p是每次试验中事件A发生的概率 则对任意的 0 有 它表明 当重复试验次数n充分大时 事件A发生的频率m n依概率收敛于事件A发生的概率阐明了频率具有稳定性 提供了用频率估计概率的理论依据 3 81 二 中心极限定理 3 3大数定律与中心极限定理 1 独立同分布大数定律2 棣莫佛 拉普拉斯中心极限定理 3 82 独立同分布的中心极限定理 也称列维一林德伯格定理 设X1 X2 是独立同分布的随机变量序列 且存在有限的 和方差 2 i 1 2 当n 时 或 就趋于正态分布 3 83 上述定理表明独立同分布的随机变量序列不管服从什么分布 其n项总和的分布趋近于正态分布 可得出如下结论 不论总体服从何种分布 只要其数学期望和方差存在 对这一总体进行重复抽样时 当样本量n充分大 就趋于正态分布 该定理为均值的抽样推断奠定了理论基础 3 84 例3 16 有一测绘小组对甲乙两地之间的距离采用分段测量的方法进行了测量 将甲乙之间的距离分成为100段 设每段测量值的误差 单位 cm 服从区间 1 1 上的均匀分布 试问 对甲乙两地之间距离的测量值的总误差绝对值超过10cm的概率是多少 解 设Xi 第i段测量误差 i 1 2 由于Xi服从均匀分布 E Xi 0 D Xi 2 1 1 2 12 1 3 根据上述中心极限定理 可得 总误差Y Xi N 0 100 3 3 85 棣莫佛 拉普拉斯中心极限定理 设随机变量X服从二项分布B n p 的 那么当n 时 X服从均值为np 方差为np 1 p 的正态分布 即 或 上述定理表明 n很大 np和np 1 p 也都不太小时 二项分布可以用正态分布去近似 3 86 为什么很多随机现象呈正态分布 自然界和社会经济现象中 这类现象很普遍 许许多多的随机变量都可以视为众多独立随机变量之总和 例如 一个城市的居民生活用电总量是大量相互独立居民户用电量的总和 炮弹射击的误差 也可以看作是很多因素引起的小误差之总和 由中心极限定理可知 即使各单个随机变量的分布并不明确 但只要它们存在有限均值和方差 这个众多独立的随机变量之总和的分布就趋近于正态分布 正态分布也称为常态分布 3 87 本章小结 随机现象 随机试验 事件的概念概率的定义 基本性质和运算法则随机变量的概念 概率分布的表示随机变量的主要数字特征三种常见的离散型概率分布二项分布 泊松分布和超几何分布两种连续型概率分布均匀分布 正态分布的主要特征和应用大数定律和中心极限定理 3 88 常用概率分布及其均值 方差- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 概率 分布
装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文