浅谈统计学的发展脉络PPT课件

上传人:深*** 文档编号:94479365 上传时间:2022-05-22 格式:PPTX 页数:31 大小:935.82KB
收藏 版权申诉 举报 下载
浅谈统计学的发展脉络PPT课件_第1页
第1页 / 共31页
浅谈统计学的发展脉络PPT课件_第2页
第2页 / 共31页
浅谈统计学的发展脉络PPT课件_第3页
第3页 / 共31页
资源描述:

《浅谈统计学的发展脉络PPT课件》由会员分享,可在线阅读,更多相关《浅谈统计学的发展脉络PPT课件(31页珍藏版)》请在装配图网上搜索。

1、Page 1若干值得注意的事项统计学的发展脉络第1页/共31页统计学的性质与特点中国大百科全书统计学: 研究怎样地收集、整理和分析数据, 以对所考察的问题做出推断或预测 直至为采取一定的决策和行动提供依据和建议。不列颠百科全书统计学: “收集和分析数据的科学与艺术。”定义第2页/共31页统计学的性质与特点统计学是数学性质的科学,可看成数学的一个分支,但与数学其他众多分支有很大的不同。定义第3页/共31页统计学的性质与特点中立性不肯定因果关系特点应用社会经济统计生物医学统计工业应用统计.第4页/共31页统计学的发展脉络第5页/共31页统计学的发展脉络描述性统计占主导地位关于死亡公报的自然和政治观

2、察(JGraunt, 1662)萌芽时期(1900)推断性统计方法寿命表最小二乘法矩法.第6页/共31页统计学的发展脉络统计思想上的重大进展: 数据是来自服从一定概率分布的总体。 统计学就是用数据去推断这个分布的未知方面。正态分布( Gauss, 1809)Pearson分布族( K. Pearson, 1894) 分布( F. Helmet, 1876)2萌芽时期(1900)第7页/共31页统计学的发展脉络学科形成时期(19001950)收集数据抽样调查( A. L. Bowley, 1906)试验设计( R. A. Fisher, 1935)主要概念、方法、定理及分支形成。分析数据估计点估

3、计置信区间假设检验显著性检验控制两类错误的检验统计判决第8页/共31页统计学的发展脉络学科形成时期(19001950)数据的类型随机变量的统计随机向量的统计(多元统计)随机过程的统计(包括时间序列)四位大家K. Pearson( 1857 1936)R. A. Fisher( 1890 1962)J. Neyman( 1894 1981)A. Wald( 1902 1950)第9页/共31页统计学的发展脉络蓬勃发展时期(1950) 统计学各分支都向纵深发展,除了建立已有统计方法(如最大似然估计、最小二乘估计)的理论基础和精细化之外,针对类别数据(定性数据)、不完全数据提出了处理方法。特别是19

4、80年以来,高速计算机的使用对统计学的发展有重大影响。第10页/共31页统计学的发展脉络蓬勃发展时期(1950)推荐:现代数学手册随机数学卷陈希孺、郑忠国主编华中科技大学出版社( 2000)1. 概率论2. 数理统计3. 试验设计4. 抽样调查5. 质量管理6. 线性模型7. 多元统计分析8. 贝叶斯统计9. 稳健统计10. 蒙特卡罗法11. 现代统计计算方法12. 随机过程13. 时间序列分析14. 随机分析15. 排队论16. 库存论17. 马尔可夫决策过程18. 可靠性与生存分析19. 决策分析第11页/共31页统计学的发展脉络蓬勃发展时期(1950)突破性进展 美国著名统计学家P.Hu

5、ber提出的三项:稳健统计、自助法( Bootstrap)、生存分析未得到公认。韦博成从引用率的角度列出下表(数据来自Google的学术搜索(2011年1月18日)第12页/共31页统计学的发展脉络蓬勃发展时期(1950)表1 引用率最高的几个统计学方向方向引用率( 次)作者生存分析35252E.Kaplan &P.Meier(1958)EM算法22724A.Demster等(1977)生存分析20022D.R.Cox( 1972)广义线性模型 16945P.Mccullagh( 1983, 1989)自助法16321B.Efron( 1979)第13页/共31页统计学的发展脉络蓬勃发展时期(

6、1950)表二 贝叶斯统计计算的引用率方向引用率(次)作者MCMC方法15017W.Hastings( 1970)MCMC方法10706S.Geman(1984)看来,贝叶斯统计的日益兴盛是一大特点。第14页/共31页若干值得注意的事项关于假设检验第15页/共31页若干值得注意的事项一类是显著性检验:控制第一类错误概率不超过给定的值 ,对第二类错误概率只要求尽量小。另一类是控制两类错误概率大小的检验。正态性检验有新的国家标准GB/T48822001, 时可用W检验;当 时可用EP检验。关于假设检验508 n8n第16页/共31页若干值得注意的事项对于比率p(成功率)的检验有国际标准IEC112

7、3( 1991)对于指数分布的 的检验有国际标准IEC61124( 2006)关于假设检验 )0(1xexFx第17页/共31页若干值得注意的事项要考察m个因素 对某个指标y的影响,因素 有 个水平要比较 ,所有可能的水平组合有 种。如何安排试验(即选取一部分水平组合做试验)以回答下列问题:A. 哪个因素影响最大,哪个次之, 哪些因素的影响可以忽略?B. N种水平组合中较优或最优的是哪些?关于试验设计mFFF,.,21jFjs),.,1, 2(mjsjjmjsN1第18页/共31页若干值得注意的事项拉丁方设计 正交拉丁方设计 正交设计日本利用正交设计提高产品质量,取得很大成绩。关于试验设计我国

8、以张里千( 1929-) 为代表在1970年代初最先认识到不可把解决问题A与B混为一谈。若以B为目标(工业试验常是这样),则在试验安排上不必考虑因素间交互作用,用小的正交表多安排因素,试验的次数少。第19页/共31页其中 未知, 是随机误差。设 如何把 找出来?若干值得注意的事项这是普遍性问题,现以线性回归为例说明其重要性和复杂性。设 是因变量, 是自变量, 关于变量选择ypxx ,.,1,1piiixy) 1 (),.,(1p0E,0,1:)(0jpjjDJ)2(0J第20页/共31页若干值得注意的事项设有观测数据: 时即令则关于变量选择ippiixxxxxx,.,2211iyy ,.,1)

9、,.,(1nixxxxyipiiiiinnnnnnxxXyyY.,.,.1)(11)(nnnXY) 3(第21页/共31页若干值得注意的事项有了数据 如何给出 和 的优良估计?利用GIC准则可找到渐近的优良估计。设 , 是 的第 列, ., 第 列组成的矩阵。关于变量选择,nnXY0JnnEY).(,.,2 , 1,.,21kikjjjpjjJ)(JXnnXkj1j第22页/共31页若干值得注意的事项(残差平方和)其中 是 中元素个数,使 达到最小值的 记为 。关于变量选择nnnnnYJXJXJXJ)()()()(1)(2)(|)()(|)(JJXYJQnnnn)(#)(ln)(JnaJQJG

10、ICnnJ#J)(JGICJnJ第23页/共31页若干值得注意的事项定理 设下列条件满足A. 是独立列, 且 (对某个 );B. 正定 。若 且 则 有下列性质:a.相合性: ;b.渐近有效性: 的最小二乘估计 与已知时 的最小二乘估计 有渐近相等的均方误差:关于变量选择,.,2122, 0iiEE|sup1iiE1MXXnnn1)(nnJ)( 1)(0nJJPnn)()()(nnnJJX0Jn)()(0)(0JJXnnna)(012nann2第24页/共31页若干值得注意的事项当 独立同分布且为 时,R. Nishi(Anal. Stat.( 1984), 758- 765)最先给出了证明。

11、本人近期扩展到一般情形。GIC准则看来很好,但有大问题:当 较大时要求出GIC的最小值点很困难,甚至不可能。实际工作中常用逐步回归法,计算简便,但找出的自变量足标集 有何优良性?至今未研究清楚。关于变量选择2020)(02)()(#|)()(|lim|)()(|limJJJXEJJXEnnnnnnnnnni), 0(2NpnJ第25页/共31页若干值得注意的事项 从1990年代以来出现了新的方法。最引人注意的是Lasso方法和适应的Lasso估计。前者是R. Tibshirani( JRSS, ser.B, 58( 1996), 267-288) 提出的,后者是H. Zou( JASA, 10

12、1(2006), 1418-1429) 提出的。a. 对于模型 ,给定正数 ,在条件下, 的最小值点 叫做 的Lasso估计。当 较小时,Lasso估计 的许多分量为0,所建立的回归方程不含有这些分量为0所对应的自变量。Lasso估计有许多较好性质,但后来发现在许多情况下,所选出的自变量缺乏相合性。关于变量选择)2(ttpii1|2|nnXY t第26页/共31页若干值得注意的事项b. 适应的Lasso估计设 是 的最小二乘估计, , 使 达到最小值的 叫做适应的Lasso估计。当样本量较大时有很多 使得 的一些分量为0。因而用 建立的回归方程 实现了变量选择。关于变量选择),.,(1p|1j

13、jw)0( |1)(12jpjjnnwXYnL)(L*),.,(*1*p*jpjjxy1*第27页/共31页若干值得注意的事项可以证明,只要 适当选择(例如, 且 ),适应的Lasso估计在相当广泛的条件下有下列性质:相合性: 满足收敛速度快: 依概率有界,但仍有大问题:对给定的 的最优或较优选择是什么?关于变量选择nn0nn0:*jnjJ1)(0* JJPn*|)(|*nnn,总之,变量选择问题相当复杂。第28页/共31页参考文献1陈希孺 数理统计学简史 湖南教育出版社( 2002)2韦博成 漫话信息时代的统计学 中国统计出版社( 2011)3陈家鼎等 数理统计学讲义(第二版) 高等教育出版

14、社( 2006)4陈家鼎 郑忠国 概率与统计 北京大学出版社( 2007)5陈铁梅 定量考古学 北京大学出版社( 2005)6王学仁 地质数据的多变量分析 科学出版社( 1982)7现代数学手册随机数学卷(陈希孺、郑忠国主编)1-932 华中科技大学出版社( 2000)8张里千等:正交法与应用数学,科学出版社( 2009)9陈家鼎,生存分析与可靠性,北京大学出版社( 2005)第29页/共31页参考文献10茆诗松,高等数理统计,高教出版社( 1998)11ToCai和X.Shen主编:High-Dimensional Data Analysis, Vol 2. Chap.4, 高等教育出版社, 201012李根等:高维模型选择方法综述,数理统计与管理, 31( 2012), No.4, 640-658.13李东风、郑忠国:最优线性回归的计算方法,数理统计与管理,27( 2008), No.1, 87-95.第30页/共31页Page 31感谢您的观看。第31页/共31页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!