关于Poisson分布的检验讲解

上传人:简****9 文档编号:26167174 上传时间:2021-08-06 格式:DOCX 页数:30 大小:237.01KB
收藏 版权申诉 举报 下载
关于Poisson分布的检验讲解_第1页
第1页 / 共30页
关于Poisson分布的检验讲解_第2页
第2页 / 共30页
关于Poisson分布的检验讲解_第3页
第3页 / 共30页
资源描述:

《关于Poisson分布的检验讲解》由会员分享,可在线阅读,更多相关《关于Poisson分布的检验讲解(30页珍藏版)》请在装配图网上搜索。

1、I目录承 保 I1 引言 11.1研究背景11.2研究方法及目的12Poisson分布 的步 和基本理 22.1 步 22.2 的基本原理33关于 Poisson 分布 的三个案例及 研究73.1案例分析73.2 位 到来 客数的 研究13参考文献18英文摘要19II关于 Poisson 分布的检验肖秋光摘要: Poisson分布是概率论中的一种重要离散分布,在许多实际问题中都有着广泛应用.本文概括了检验样本数据是否服从泊松分布的一般方法,主要是对随机数据进行图像模拟估计和利用假设检验原理对给定的临界值进行估计. 其中2 检验是众所周知的拟合优度检验,它能适用于任意的备择假设. 另外,通过三个

2、例子进行说明,最后用该方法对实测数据进行了分析和检验,并得出了结论.关键词 : Poisson分布假设检验独立变量2 统计量1 引言1.1研究背景改革开放三十年来随着社会的 展、 的增 ,科学技 日新月异、人民 有的物 日益丰富、 感受到的文化也更加多元、 社会的各种法 制度日臻成熟,无 是住房、保 、交通、旅游、高 量 品 是教育、 食等 . 其 果是构成了大量的随机数据, 而 些数据有没有什么 律可循呢?就需要我 它 行研究 . 在 生活中的 多数据 人 大量的研究是服从泊松分布的. 若通 察 得到了一 数据,它是否服从泊松分布, 需要我 其 行 .泊松分布是 1837 年由法国数学家泊松

3、( Poisson S.D.1781-1840 )首次提出的 . 它是概率 中的一种重要的离散型随机 量的概率分布,在理 上和 践中都有广泛的 用 . 如 110 警台 24 小 接到的 警次数、 一定 内 生的意外事件次数或灾害次数、布匹上的疵点数目、放射性物 放射出的粒子数目等.1.2研究方法及目的由于向 110 警台的 警是一次次到来的;自然灾害是一次次 生的;放射性粒子是一个个射出的; 入商 的人是一个个到来的它 都可以看成1是一种于随机 刻到来的“ 点流” . 要 其 行研究,首先,必 收集到有效的数据 . 其次,由于得到的 本数据通常是 或 而来,因此它不能完全的反映事物的本 .

4、我 主要 部分数据 行抽取分析,根据部分数据 全体数据做出推断及判断 .因此,研究 位 内 生的 多随机 量有助于当事者 各种新措施、新技 作出更 科学合理的决策 . 例如,商 每个 段到达的人数不一,通 可以确定哪个 段是人流的高峰期, 可以在 个 段做一些宣 或促 生的效益就会比其他 段高,并有效控制成本,使其用最小的投入 来最大的收益.2 Poisson 分布 的步 及基本理 2.1 步 2.1.1数据整理 行 Poisson 分布的 ,首先要 收集到的数据 行整理. 假 收集到 位 的量 x1 , x2 , x3xn ,然后把 些量按从小到大 序排列起来,并 出其 数稍加整理制成表格如

5、下:表 1 位 的量xi012xi 数 pip0p1p2pi其中 足: x1x2xn0 p0 1 p1xipi2.1.2用 像 本数据 行模 由于 形比 直 ,而且 本数据在一定程度上能有效反映 体的分布 律,故可以用 本数据的 像模 通 比, 分布 行初步判断.泊松分布的 形一般 左偏,但随数 的增大, 形 于 称.2图 12.1.3检验得出结论2.2检验的基本理论2.2.1假设检验假设检验是对总体的分布函数形式或分布的某些参数作出某些可能的假设,然后根据所得的样本数据,对假设的正确性作出判断 .假设检验的步骤:根据问题建立原假设和备择假设原假设是设总体参数等于某一数值, 而备则假设是根据研

6、究的目的来确定:可采用双侧检验,也可采用单侧检验 . 确定单、双侧检验的同时,也就确定了接受域和拒绝域的位置 .选择适当的样本统计量,并确定以H 0 为真时的抽样分布这一步是假设检验的关键,需要根据已知条件找到一个包含待检验总体参数和样本数据的已知分布,并计算出统计量的数值 .选定显著性水平,确定临界值应在抽样之前就确定下来,根据单、双侧检验的情况,将 放置一侧或双侧 . 然后根据第二步骤中所选择统计量服从的分布,查相应分布表,确定临界值 .进行判别,得出结论将第二步计算的数值与第三步得到的临界值进行比较,根据判别原则,作出结论 .2.2.2最大似然估计及拟合优度2 检验3最大似然估计中采样需

7、满足一个很重要的假设,就是所有的采样都是独立同分布的 . 下面我们具体描述一下最大似然估计:首先,假设 x1 , x2 , xn 为独立同分布的样本, 为模型参数 ,f为我们所使用的模型,遵循我们上述的独立同分布假设. 参数为 的模型 f 产生上述样本可表示为f (x1, x2 , xn |)f ( x1 |)f (x2 |)f (xn |)在上面的假定模型且参数是未知的基础上,这时,我们已知的有x1 , x2 , xn ,未知的有 ,所以似然函数定义为:nL ( )f ( x1, x2 , xn |)f ( xi |) ,i 1L( ) 称为样本的似然函数 . 倘若存在一个值 ?,使得在?时

8、有L ( x1 , x2 , , xn | ?)max L( x1 , x2 , , xn |)则称 ?是 的一个极大似然估计值,简记为MLE.在实际应用中通常采用的是两边取对数,得到公式如下:nln L ( )ln f (xi | ) ,i1由于 ln( x) 是 x 的单调增函数,因此,使对数似然函数 ln L( ) 达到最大与 L( )达到最大是等价的 .令 d ln ( ) 0 ,即可解出的极大似然估计值 ?.Ld若总体 X 是具有参数0 的泊松分布, X1 , X 2 , X n 为来自总体 X 的一个样本,则似然函数为:xinnn1 ) i 1xiL( )e(e ni 1xi !i

9、 1xi !4nnnxiln L ( )ln xi ! n(xi ) ln , d ln L( )ni 1i 1i 1dn令 d ln L ( )xi1 n0 ,得如下方程:ni 10 ,从中解得: ?xi ,dn i1又 d 2 ln L() | ?n20 ,于是参数的最大似然估计为:?x .d 2nxii 12 拟合优度的检验,是通过 2 统计量来检验变量的实际分布是否与理论分布相同 . 所谓拟合优度,是指实际观察的频数与期望(理论)频数相似的程度 . 2 检验可以对各种假设的分布进行检验 . 在对各种分布进行检验时,应将各变量值做适当分类,使每一类别的期望频数大于等于 5. 在选定类别时

10、,如果变量值是有限个,则可以将其每一个取值作为一个类别; 如果变量值可以取无限个,则通过适当合并,将其变为有限个区间,把每一个区间视为一类.2.2.3P 值检验所谓 P 值,是指在一个假设检验问题中, 利用观测值能够做出拒绝原假设选择的最小显著性水平, 如果 p 值小于显著性水平 ,则相应的检验统计量的值落入拒绝域中 . 其检验规则为:若p 值,则拒绝原假设H 0 ;若p 值,则接受原假设H 0 .2.2.4 Poisson 分布检验设总体 X 服从具有参数为0 的泊松分布, X1 , X 2 , X 3 , X n 为其样本 .考虑检验问题: H 0:0 ; H 1 :0 , 现有nnxin

11、xin11p( xi ; )ee ni 1ne n exp ( xi ) lnni 1i 1xi !( xi !)i 1( xi !)i1i 1n其中 T x1 , x2 , , xnxi ,b( ) lni 15h(x1, x2 , , xn )n1, c( ) e n( xi !)i 11,Tc1 &c2因此 ( x1, x2 , xn )bi ,Tc j , j1,20,c1 Tc2nn则E 0X iE 0( x1 , x2 , , xn ) xii 1i1M ( 0 , 0 ) E 0( x1, x2 , , xn )n当 H 0 为真时,统计量 TX i 服从参数为 n 0的泊松分布

12、, E(T )n0 ,则i 1c1 1 (n 0 ) jn 0(n 0 ) jen0b1(n 0 )cen0b2( nc2 en0j 0j!ej c2 1j!c1!1c2 !0 )c1 1j (n 0 )jn 0j ( n 0 )jn 0b1c1c1n0b2c2c2nn 0ee(n0 )e( n0 )e0j 0j!j c2 1j!c1 !c2 !在一般情况下上述方程不易求解,但当0 不接近于零而 n 又不很小时,统计量nX in 0Ui 1的渐进分布为正态分布N (0,1) ,则n 0nnP 0X in 0 u P 0X in 0ui 1i1对一切实数 u 都渐近地成立(这是因为正态分布具有对

13、称性). 因此, b1 ,b2 ,c1,c2由下式确定:2c1 1 ( n 0 ) j e n 0b1 (n0 ) c1 e n 0(n 0 ) j e n 0b2 (n 0 ) c2 e n 0j 0j!c1!j c2 1j!c23 关于 Poisson 分布检验的三个案例及实际研究3.1案例分析3.1.1论反腐败与泊松分布腐败现象作为当今社会的一种非常态,它的发生、出现引起了广大群众的6关注 . 调查显示最近几年科级腐败正在加剧, 小官受贿成隐患 . 据悉,某检察院工作人员对某经济较落后省的 320 个底层官员在一年时间内的受贿金额调查纪录如下表所示 . 根据这些数据(金额 0 表示未受贿

14、,金额 1 表示受贿金额大于 0 小于等于 1,其余类同)检验受贿金额是否服从泊送分布 .表 21年内 320 个官员受贿金额(万元)统计表金012345678910合额计人154770815225169410320数来源于参考文献 6用折线图像模拟数据如下:官员受贿频数图1008060人数系列 14020012345678910 11受贿金额图 2从图形走势看,为左偏凸值分布, 与泊松分布较为相似, 可初步判定为泊松分布 .在理论上,这里我们需要检验的是在一年的时间段内受贿官员的受贿金额是否服从泊送分布,所以可以假设H 0 :一年的时间内受贿官员的受贿金额服从泊送分布;H 1 :一年的时间内

15、受贿官员的受贿金额不服从泊送分布;xe,式中: 是未知参数 .我们知道泊送分布的概率密度函数为f ( X x)x!7如果假设为真时,可以根据本数据估计. 由上表的数据可以的到在320 个底层官员中,平均每一官员受贿的金额(万元),即?015147911003.0320因此,可以用?作为 的估计值,即得到为真时的概率密度函数3xe 3f ( Xx)x!根据该密度函数,就可以计算出在每一个官员的受贿金额为各个类别出现的概率,这些概率值可通过泊送分布表查得 . 例如,在一年内受贿金额为 0 万元的官员人数的概率是 f ( X 0) 0.498 ,受贿金额为 1 万元的概率是 f ( X 1) 0.1

16、494等 . 然后用查出的概率分别乘以样本容量n(n320) ,就可以得到各类别期望的频数 . 例如,在 320 个官员中受贿金额为 0 万元的期望频数是 0.0498 320 15.936 .下表列出了2 统计量的计算过程 .表 32 统计量的计算过程受贿金额为真时的实际频数期望频数(ni ei )2xif ( X xi )niei n f ( Xxi )ei00.04981515.9360.055010.14944747.8080.013720.22407071.680.039430.22408171.681.211840.16805253.760.057650.10082532.2561

17、.632260.05041616.1281.015970.021696.91280.008142.5920.981290.002710.86410 万元以上0.001200.384合计1.00003203205.00688我们注意到表中, 受贿金额为 8,9 和 10 万元次及以上金额的期望频数都小于 5,所以将这三类归于受贿金额为7 万元的合并为一类,所以合并之后的类别数 k 8 . 这时2 统计量为28(niei )25.0068i1ei需要注意的是:根据 Pearson 定理,上式的2 统计量服从自由度为 kr1 的 2分布,其中 k 时类别的个数, r 是估计的总体参数的个数 . 在这

18、里 k8, r1 (只估计了一个参数),所以自由度为 kr 18 1 1 6 . 于是,当0.05 时,查表可得2(6) 12.592 . 对于样本的2值,因为220.050.05(6) 落在接受域中 . 所以接受 H 0 ,拒绝 H 1 , 即在一年的时间中该地区官员的受贿金额是服从泊松分布的 .大家熟知当 n 很大, p 很小时的二项分布趋于泊松分布 . 按照泊松分布的规律,一项非正常态现象的出现除了在总体中的概率很小外, 其最明显的特征则是常常集中分布 . 通过上面检验和大量案例表明 , 腐败现象作为社会现象中的一种非正常态,其发生和发展呈泊松分布规律, 特点是总体上的稀有性和局部的密集

19、性加偶然性,具体表现有“前腐后继案”、“串案”、“窝案”等形式 . 因此治理腐败:一是要尽早发现, 尽快惩前毖后; 二是不能搞扩大化; 三是要综合治理 .其次表明,泊松分布密集出现的概率跟社会体制有关, 尤其是在经济转型、社会发生变革的时期容易出现。比如我国正处于向社会主义市场经济的过渡时期,法制不健全, 各项改革和管理措施还跟不上形势发展的需要, 所以腐败现象就表现得比较明显和集中。 若从历史长河中看, 这种过程还是短暂的, 从全局来看它也只集中在某些特定的行业和领域,而大部分时间和大部分领域都是正常的,都是非腐败的。3.1.2卢瑟福散射实验卢瑟福散射是近代物理科学发展史中最具影响力的重要实

20、验之一。 1909 年卢瑟福( L.E. Rutherford)和其合作者盖革( H. Geiger)与马斯( E. Marsden)进行的 粒子散射实验,为原子的核式模型奠定了实验基础。他们在云雾实验室观察镭所发射出的粒子数目 . 记录了 2608 个相等时间间隔(他们以 7.5 秒为一个时间段)内观测了一放射性物质镭放射的粒子数 x ,9表 4x i01234567891011ni572033835255324082731394527106来源于参考文献 7在上表中的 ni 是观测到 i 个粒子的时间间隔数(最后一项已经合并). 若要检验观测的数据服从泊松分布这一假设(0.05 ),则:k

21、因为对参数为的泊松分布是:P( Xk)e, k0,1,2k!根据上表原始数据可以算得最大似然估计?x3.870而 ? 3.870 的泊松分布通过计算机计算及查表(泊松分布函数表)可得下表:表 5ini?2pinpi(ni npi )np?i0570.20954.50.114712030.0807210.50267223830.1562407.41.461435250.2015525.50.000545320.1950508.61.076654080.1509393.50.534362730.0973253.81.452571390.0538140.30.01208450.026067.87.6

22、6739270.011229.20.165810100.005311.20.12861160.00225.70.0158总和26081.0000260812.8967因此212.8967,其自由度为12-1-1=10 ,对0.05 查(2 分布分位数1022p ( n) 表)得0.05 (10)18.307 ,所以我们接受 H 0 ,认为观测数据服从泊松分布.相等时间间隔镭放射粒子数的频数图600500400频数系列 130020010001234567891011127.5 秒放射的粒子数图 3卢瑟福等人经过两年时间综合多方面因素的分析,在 1911 年提出原子的核式模型,原子中的正电荷集中

23、在原子中心很小的区域内, 而且原子的全部质量也集中在这个区域内 .原子核的半径近似为 10,约为原子半径的千万分之一 .卢瑟福散射实验确立了原子的核式结构,为现代物理的发展奠定了基石 .这充分表明研究泊松分布具有重大意义 .3.1.3对印刷错误个数的检验一个检验员检查了一本书的100 页,并仔细记录各页中印刷错误的个数,其结果为:表 6错误个数 fi01234567含 f i个错误的页数36401920210其频数模拟如下图:114540353025系列12015105012345678图 4若要检验一页的印刷错误个数是否服从泊松分布. (取0.05 )则:假设H 0 : 总体 X 服从泊松分

24、布;H 1 : 总体 X 不服从泊松分布从表中数据可得: x36 0 40 1192 23 0 4 2 5160 71100当 H 0 成立时 ,的最大似然估计为 ?x1 ,检验的拒绝域为:2f?i2n2 (kr1)np?i由给出的条件可知n100?p( X0)e 10.3679 ,?p( X1)11 e 10.3679p00!p11!?p( X2)12 e1?p( X3)13 e10.0613p22!0.18397 ,p33!14 e 115 e 1?p( X4)0.01533,?p( X5)0.003066p44!p55!616?1 e0.000511,?p( X7)1?0.000023p

25、6 p( X 6)6!p7pii 0?5 ,将其合并得72而对于 jnp?j8.023 ,合并后k4 ,查分布3,有 np jj 312分位数2() 表可得:2(41 1) 5.991pn0.05而236240 21925236.7936.7918.397100 1.4448.023由 1.444 5.991, 故在0.05下,我们接受 H 0 , 即可认为一页的印刷错误个数服从泊松分布 .通过对印刷错误的研究,我们可知每页印刷错误在一个左右时是正常的,所以在使用书刊时发现错误不用大惊小怪 .3.2对单位时间到来顾客数的实际研究在 2011-3-11 日星期五,通过实际采样,记录了上午10:5

26、5 12:05的 70 分钟内每分钟到达联合书城的人数,记录如下:4 8 7 5 0 1 1 5 9 4 2 1 6 5 7 4 0 7 8 5 5 1 91 4 1 3 0 3 7 5 2 1 0 5 3 2 5 1 7 4 5 9 1 1 34 9 4 6 11 10 12 1 2 4 4 3 9 6 8 8 13 8 3 0 4 57 8通过整理可以得到下表:表 7每分钟进入的人数012345678910111213实际频数51146101036651111显然,可以初步认为进入书城的顾客流是相互独立的随机数. 首先用图像初步模拟一下,其散点图如下 :每分钟到达人数的频数分布12108数

27、6系列1频42002468101214每分钟到达的人数图 513如上图所示,这些点很凌乱,看不出其规律.下面将其用折线图展示如下:121086系列 1420123456789 10 11 12 13 14图 6上图和普通的泊松分布图相比差别比较大,有两处凹陷的地方,初步判断不是泊松分布 .基于以上内容,下面用假设检验原理对其检验. 首先,假设顾客数是服从Poisson 分布的 . 即H 0 :每分钟进入的人数服从泊松分布;H 1 :每分钟进入的人数不服从泊松分布 .根据前文内容可知, Poisson 分布的最大似然估计?,则计算平均数?0 51 112436410510637686951011

28、1 1121131704.657170由于泊松分布表提供的整数位后只有一位小数,而?介于 4.6到 4.7 之间所以可以:用?4.6作为的估计值用?4.7作为的估计值,因此,用 ?作为的估计值,即得到 H 0 为真时的概率密度函数3.4.1 当取4.6 xe4.64.6 时,有 f X x,查泊松分布表计算得下表, 其x!14中 2 统计量按四舍五入取小数点后四位 .表 8进入人数为真时的实际频数期望频数xifXxinieinfXxi00.010150.707nieiei210.046211203.23411.38220.106347.44130.1631611.41740.18751013.

29、12550.17251012.07560.132339.26170.086966.08380.050063.50090.025551.785100.011810.826110.00491210.3436.525120.001910.133130.000710.049大于 130.000300.021合计170706.52522.57020.74400.35654.232832.111246.5399从表中观察进入人数为 0,1,8 及其以上的期望频数都小于 5,所以将进入人数为 0,1 的与进入 2 个的合并为一类,进入 8 个及以上与进入 7 的合并为一类,那么合并后的类别数 k6 ,其2

30、统计量为:26ni ei246.53991ei根据 Pearson 定理,2 统计量服从自由度为kr1的 2分布,在这里k 6, r 1,所以自由度为 4. 于是,当0.05时,查2分布表得24 9.4880.05对于样本的2 值,有2 0.205 4 落在拒绝域内 . 所以拒绝 H 0,接受 H 1 ,即每分15钟进入书城的人数不服从泊松分布,与用图像模拟得到的初步结论一致.3.4.2当取4.7xe4.74.7 时,有 f X x,查泊松分布表计算得下表x!表 9进入人数为真时的实际频数期望频数xif X xiniei n f X xi00.009150.63710.042711202.98

31、910.66120.100547.03530.1574611.01840.18491012.94350.17381012.16660.136239.53470.091466.39880.053763.75990.028051.960100.013210.924110.00561210.39213.664120.002210.154130.000810.056大于 130.000300.021合计1.00007069.9862nieiei8.18092.88540.66920.38564.47803.938620.5377其余同上,当0.05时,查2分布表得249.488 对于样本的2值,仍然0

32、.05有 2 0.2 05 4 落在拒绝域内,结论也一致 .按照众多学者研究,在一般情况下对于这种随机变量的检验应该服从Poisson分布 . 在这里为什么得到了相反的结论?我认为可能有两点原因:一是所采集到的样本数据可能具有特殊性,不能完全反映总体的分布, 若多测几组数据进行检验结果可能会改变; 二是我们假设的前提是每个人相互独立,而实际情16况有许多人是有关联的, 例如一个家庭四个人同时进入、两个好朋友陪同一个朋友买书等诸多情况,这个因素可能也会对结果有影响.结束语:随着社会的发展和可研究案例的增多,把自然科学领域的原理用到社会现象的研究、分析上来,对发现问题解决问题有许多益处.17参考文

33、献:1 茆诗松等 . 概率论与数理统计教程 M. 北京:高等教育出版社 ,2008.2 朱洪文 . 应用统计 M. 北京:高等教育出版社 ,2006.3 王荣华等 . 概率论与数理统计(习题精选). 北京:北京大学出版社 ,2010.4 谢民育,吴茗,熊明 . 多元分布下单边备择假设的两步检验. 武汉 20095 徐亮,丁先文等 . 基于经验似然的部分线性模型的统计诊断. 南京, 20096 7 18POISSON DISTRIBUTION ON THE INSPECTIONXIAO QiuguangAbstract:Poisson distribution is one of the imp

34、ortant discrete probabilitydistribution,have widelyused in many practicalproblems.This articlesummarizesthe generalmethod of whether the random data of testingsample answer tothe Poissondistribution, it mainly use image simulation to estimate the random data and theprinciple of hypothesis test to es

35、timate the given critical value. Chi-squaretesting is famous known as the goodness-of-fit testing among these tests, and itcan be applied to any reference hypothesis. In addition, I have illustrated it bythreeexamples .Atlast,Ihave measured thedata analysisand inspectionwiththismethod and reach a conclusion.Keywords : Poisson distributiontestof hypothesisindependentvariableChi-square statistic variable19

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!