欢迎来到装配图网! | 帮助中心 装配图网zhuangpeitu.com!
装配图网
ImageVerifierCode 换一换
首页 装配图网 > 资源分类 > DOC文档下载
 

主成分分析的概念及基本思想主成分分析PrincipleComponent

  • 资源ID:76327349       资源大小:341.50KB        全文页数:7页
  • 资源格式: DOC        下载积分:18积分
快捷下载 游客一键下载
会员登录下载
微信登录下载
三方登录下载: 微信开放平台登录 支付宝登录   QQ登录   微博登录  
二维码
微信扫一扫登录
下载资源需要18积分
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

主成分分析的概念及基本思想主成分分析PrincipleComponent

1、主成分分析的概念及基本思想主成分分析 (Principle Component Analysis, PCA)是最为常用的特征提取方法, 被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。它通过对原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干扰能力。主成分概念首先由 Karl parson 在 1901 年引进,不过当时只是对非随机变量进行讨论, 1933 年 Hotelling 将这个概念推广到随机向量。在实际问题中,研究多指标 (变量 )问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多并且指标之间有一定的相关性,势必增加了分析问题的复杂性。 主成分分析就是设法将原来众多具有一定相关性的指标 (比如 p 个指标 ),重新组合成一组新的相互无关的综合指标来代替原来指标 。通常数学上的处理就是将原来 p 个指标作线性组合, 作为新的综合指标, 但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望 F1 尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1 的方差来表达,即Var(F1)越大,表示 F1 包含的信息越多。因此在所有的线性组合中所选取的F1 应该是方差最大的,故称 F1 为第一主成分。 如果第一主成分不足以代表原来P 个指标的信息, 再考虑选取 F2 即选第二个线性组合, 为了有效地反映原来信息, F1 已有的信息就不需要再出现在 F2 中,用数学语言表达就是要求 Cov(F1,F2)=0 ,称 F2 为第二主成分,依此类推可以构造出第三,四,第 p 个主成分。不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。2、主成分分析的数学模型及几何意义2.1、数学模型设有 n 个样品,每个样品观测p 项指标 (变量 ): X 1,X2, .Xp,得到原始数据资料阵:x11x12x1px21x22x2 p, X 2, ,X p )X(X 1xn1xn2xnp其中x1iX i =x2ii =1,2, ,pxni用数据矩阵 X 的 p 个向量 (即 p 个指标向量 )X 1,X2 , X p 作线性组合 (即综合指标向量 )为:FaX1aX2apXp 111 12 1FaX1aX2apXp 221 22 2Fpa1 p X 1 a p2X 2app X p简写成FaXia XaXpi1 , 2 , , pi1 i2 i 2p i其中, Xi 是 n 维向量,所以Fi 也是 n 维向量。上述方程组要求:a12ia22ia2pi1i1,2, p且系数aij由下列原则决定:(1)Fi 与Fj (ij,i,j=1,p)不相关;(2) F1 是 X 1 ,X2, ,X p 的一切线性组合 (系数满足上述方程组 )中方差最大的, F2与 F1 不相关的 X 1 ,X 2, ,Xp 一切线性组合中方差最大的,Fp 是与 F1,F2,Fp-1 都不相关的 X 1 ,X2, ,X p 的一切线性组合中方差最大的。如何求满足上述要求的方程组的系数aij 呢?下一节将会看到每个方程式中的系数向量 (a1i,a2i , ,api),i=1,2, ,p 不是别的而恰好是X 的协差阵的特征值所对应的特征向量,也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在协方差阵的第一个特征值所对应特征向量处达到。依此类推使 Var(Fp)达到最大值是在协方差阵的第p 个特征值所对应特征向量处达到。2.2、主成分的几何意义从代数学观点看主成分就是p 个变量 X 1 ,X2,,X p 的一些特殊的线性组合, 而在几何上这些线性组合正是把X 1 ,X 2,,X p 构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差) 。下面以最简单的二元正态变量来说明主成分的几何意义。设有 n 个样品,每个样品有p 个变量记为 X 1 ,X 2, ,X p,它们的综合变量记为F1, F2 , Fp 。当 p=2 时,原变量是 X 1, X 2,它们有下图的相关关系:主成分的意义对于二元正态分布变量, n 个分散的点大致形成为一个椭圆,若在椭圆长轴方向取坐标轴 F1,在短轴方向聚 F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转 角度,根据旋转轴变换公式新老坐标之间有关系:F1X1 cosX 2 sinF2X1 sinX2 cos矩阵表示为:F1cossinX1U XF2sincosX2显然 UT=U-1 且是正交矩阵,即UTU=I 。从上图还容易看出二维平面上的n 个点的波动 (可用方差表示 )大部分可以归结为在 F1 轴上的波动,而在 F2 轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑 F1 方向上的波动,忽略 F2 方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量 F1 即可。而 F1 是椭圆的长轴。 一般情况 ,p 个变量组成 p 维空间, n 个样品就是 p 维空间的 n 个点,对 p 元正态分布变量来说,找主成分的问题就是找P 维空间中椭球体的主轴问题。3、主成分分析的推导在下面推导过程中,要用到线性代数中的两个定理:定理一若 A是 p*p 阶实对称阵,则一定可以找到正交阵U 使100020,其中 1,2, p是 A 的特征根。U 1AU00p定理二若上述矩阵 A 的特征根所对应的单位特征向量为u1, u2, up 令u11u12u1pUu21u22u2p(u1 , u2 , ,up )up1u p2u pp则实对称 A 属于不同特征根所对应的特征向量是正交的,即uuj0UU TUTU Ii设 F a Xa X2a XpaT X ,其中 a=(a1,a2,ap)T,X=(X 1,X 2,112pXp )T,求主成分就是寻找X 的线性函数 aT X 使相应得方差尽可能地大,即使Var (F )Var (aT X )aTa达到最大值,且 aT。a=1设协方差矩阵的特征根为1,2,p,不妨假设12p>0,相应的单位特征向量为u1, u2, up。令U(u1 ,u2 ,up )u11u12u21u22u1pu2pu21u22由前面线性代数定理可知: UTU=UU T=I,且100020UU T00p因此ppaT ai aT ui uTi ai (aT ui )( aT ui )Ti 1i1所以pu2ppi ui uii 1pi (aT ui )2i 1aT a1(aT u)21(aTU )( aT U )TaTUU T a1aT a1i1i 1而且,当 a=u1 时有ppTu1T(i ui uT)u1TTu1Tu1 )2u1u1ii u1ui ui1 (u11i 1i 1因此, a=u1 使 Var(aTX)=a Ta 达到最大值,且Var (u1T X )u1T u11同理Var (uiT X )i而且ppcov( uiT ,uTj ) uiT u j uiT (aua uaT )u ja (uiT ua )( uaT u j ) 0, i ja 1a1上述推导表明: X 1,X2,Xp 的主成分就是以E 的特征向量为系数的线性组合,它们互不相关,其方差为的特征根。由于的特征根12p>0,所以有 VarF1VarF2 VarFp>0。了解这一点也就可以明白为什么主成分的名次是按特征根取值大小的顺序排列的。在解决实际问题时,一般不是取p 个主成分,而是根据累计贡献率的大小取前pk 个 。 称 第 一 主 成 分 的 贡 献 率 为 i /i, 由 于 有 Var (F1)1,所以i 1ppi /iVar ( F1 ) /Var ( Fi ) 。因此第一主成分的贡献率就是第一主成分的方差在全i 1i1pX 1, X 2, ,X p 信息的部方差i中的比值。这个值越大,表明第一主成分综合i1力越强。p前两个主成分的累计贡献率定义为 ( 12 ) /i , 前 k 个主成分的累计贡献i1kp。如果前 k 个主成分的贡献率达到85%,表明取前 k 个主成分率定义为i /ii1i1包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题进行分析和研究。4、主成分分析的计算步骤设 x = ( x 1 , x2 , ?, xn) T 为 n 维随机矢量 ,则 PCA 具体计算步骤如下:(1) 将原始观察数据组成样本矩阵 X ,每一列为一个观察样本 x ,每一行代表一维数据。(2) 计算样本的协方差矩阵:(3) 计算协方差矩阵 Cx 的特征值 i 及相应特征向量 ui ,其中 i = 1 ,2 , ?, n。(4) 将特征值按由大到小顺序排列 ,并按照下式计算前 m 个主元的累积贡献率:mn(m)i/ii1i1累积贡献率用于衡量新生成分量对原始数据的信息保存程度即可。(5) 取前 m 个较大特征值对应的特征向量构成变换矩阵,通常要求其大于TT:85%TT= ( u1 , u2 , ?, um)m < n(6) 通过 Y= TX计算前m个主成分 ,达到降低维数的目的。

注意事项

本文(主成分分析的概念及基本思想主成分分析PrincipleComponent)为本站会员(泽***)主动上传,装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知装配图网(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!