主成分分析的概念及基本思想主成分分析PrincipleComponent

上传人:泽*** 文档编号:76327349 上传时间:2022-04-18 格式:DOC 页数:7 大小:341.50KB
收藏 版权申诉 举报 下载
主成分分析的概念及基本思想主成分分析PrincipleComponent_第1页
第1页 / 共7页
主成分分析的概念及基本思想主成分分析PrincipleComponent_第2页
第2页 / 共7页
主成分分析的概念及基本思想主成分分析PrincipleComponent_第3页
第3页 / 共7页
资源描述:

《主成分分析的概念及基本思想主成分分析PrincipleComponent》由会员分享,可在线阅读,更多相关《主成分分析的概念及基本思想主成分分析PrincipleComponent(7页珍藏版)》请在装配图网上搜索。

1、1、主成分分析的概念及基本思想主成分分析 (Principle Component Analysis, PCA)是最为常用的特征提取方法, 被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。它通过对原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干扰能力。主成分概念首先由 Karl parson 在 1901 年引进,不过当时只是对非随机变量进行讨论, 1933 年 Hotelling 将这个概念推广到随机向量。在实际问题中,研究多指标 (变量 )问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多并且指标之间有一定的相关性,势必增加

2、了分析问题的复杂性。 主成分分析就是设法将原来众多具有一定相关性的指标 (比如 p 个指标 ),重新组合成一组新的相互无关的综合指标来代替原来指标 。通常数学上的处理就是将原来 p 个指标作线性组合, 作为新的综合指标, 但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望 F1 尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1 的方差来表达,即Var(F1)越大,表示 F1 包含的信息越多。因此在所有的线性组合中所选取的F1 应该是方差最大的,故称 F1 为第一主成分。 如果第一主成分

3、不足以代表原来P 个指标的信息, 再考虑选取 F2 即选第二个线性组合, 为了有效地反映原来信息, F1 已有的信息就不需要再出现在 F2 中,用数学语言表达就是要求 Cov(F1,F2)=0 ,称 F2 为第二主成分,依此类推可以构造出第三,四,第 p 个主成分。不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。2、主成分分析的数学模型及

4、几何意义2.1、数学模型设有 n 个样品,每个样品观测p 项指标 (变量 ): X 1,X2, .Xp,得到原始数据资料阵:x11x12x1px21x22x2 p, X 2, ,X p )X(X 1xn1xn2xnp其中x1iX i =x2ii =1,2, ,pxni用数据矩阵 X 的 p 个向量 (即 p 个指标向量 )X 1,X2 , X p 作线性组合 (即综合指标向量 )为:FaX1aX2apXp 111 12 1FaX1aX2apXp 221 22 2Fpa1 p X 1 a p2X 2app X p简写成FaXia XaXpi1 , 2 , , pi1 i2 i 2p i其中, X

5、i 是 n 维向量,所以Fi 也是 n 维向量。上述方程组要求:a12ia22ia2pi1i1,2, p且系数aij由下列原则决定:(1)Fi 与Fj (ij,i,j=1,p)不相关;(2) F1 是 X 1 ,X2, ,X p 的一切线性组合 (系数满足上述方程组 )中方差最大的, F2与 F1 不相关的 X 1 ,X 2, ,Xp 一切线性组合中方差最大的,Fp 是与 F1,F2,Fp-1 都不相关的 X 1 ,X2, ,X p 的一切线性组合中方差最大的。如何求满足上述要求的方程组的系数aij 呢?下一节将会看到每个方程式中的系数向量 (a1i,a2i , ,api),i=1,2, ,p

6、 不是别的而恰好是X 的协差阵的特征值所对应的特征向量,也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在协方差阵的第一个特征值所对应特征向量处达到。依此类推使 Var(Fp)达到最大值是在协方差阵的第p 个特征值所对应特征向量处达到。2.2、主成分的几何意义从代数学观点看主成分就是p 个变量 X 1 ,X2,,X p 的一些特殊的线性组合, 而在几何上这些线性组合正是把X 1 ,X 2,,X p 构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差) 。下面以最简单的二元正态变量来说明主成分的几何意义。设有 n 个样品,每个样品有p 个变量

7、记为 X 1 ,X 2, ,X p,它们的综合变量记为F1, F2 , Fp 。当 p=2 时,原变量是 X 1, X 2,它们有下图的相关关系:主成分的意义对于二元正态分布变量, n 个分散的点大致形成为一个椭圆,若在椭圆长轴方向取坐标轴 F1,在短轴方向聚 F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转 角度,根据旋转轴变换公式新老坐标之间有关系:F1X1 cosX 2 sinF2X1 sinX2 cos矩阵表示为:F1cossinX1U XF2sincosX2显然 UT=U-1 且是正交矩阵,即UTU=I 。从上图还容易看出二维平面上的n 个点的波动 (可用方差表示 )大部分可

8、以归结为在 F1 轴上的波动,而在 F2 轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑 F1 方向上的波动,忽略 F2 方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量 F1 即可。而 F1 是椭圆的长轴。 一般情况 ,p 个变量组成 p 维空间, n 个样品就是 p 维空间的 n 个点,对 p 元正态分布变量来说,找主成分的问题就是找P 维空间中椭球体的主轴问题。3、主成分分析的推导在下面推导过程中,要用到线性代数中的两个定理:定理一若 A是 p*p 阶实对称阵,则一定可以找到正交阵U 使100020,其中 1,2, p是 A 的特征根。U 1AU00p定理

9、二若上述矩阵 A 的特征根所对应的单位特征向量为u1, u2, up 令u11u12u1pUu21u22u2p(u1 , u2 , ,up )up1u p2u pp则实对称 A 属于不同特征根所对应的特征向量是正交的,即uuj0UU TUTU Ii设 F a Xa X2a XpaT X ,其中 a=(a1,a2,ap)T,X=(X 1,X 2,112pXp )T,求主成分就是寻找X 的线性函数 aT X 使相应得方差尽可能地大,即使Var (F )Var (aT X )aTa达到最大值,且 aT。a=1设协方差矩阵的特征根为1,2,p,不妨假设12p0,相应的单位特征向量为u1, u2, up

10、。令U(u1 ,u2 ,up )u11u12u21u22u1pu2pu21u22由前面线性代数定理可知: UTU=UU T=I,且100020UU T00p因此ppaT ai aT ui uTi ai (aT ui )( aT ui )Ti 1i1所以pu2ppi ui uii 1pi (aT ui )2i 1aT a1(aT u)21(aTU )( aT U )TaTUU T a1aT a1i1i 1而且,当 a=u1 时有ppTu1T(i ui uT)u1TTu1Tu1 )2u1u1ii u1ui ui1 (u11i 1i 1因此, a=u1 使 Var(aTX)=a Ta 达到最大值,且

11、Var (u1T X )u1T u11同理Var (uiT X )i而且ppcov( uiT ,uTj ) uiT u j uiT (aua uaT )u ja (uiT ua )( uaT u j ) 0, i ja 1a1上述推导表明: X 1,X2,Xp 的主成分就是以E 的特征向量为系数的线性组合,它们互不相关,其方差为的特征根。由于的特征根12p0,所以有 VarF1VarF2 VarFp0。了解这一点也就可以明白为什么主成分的名次是按特征根取值大小的顺序排列的。在解决实际问题时,一般不是取p 个主成分,而是根据累计贡献率的大小取前pk 个 。 称 第 一 主 成 分 的 贡 献 率

12、 为 i /i, 由 于 有 Var (F1)1,所以i 1ppi /iVar ( F1 ) /Var ( Fi ) 。因此第一主成分的贡献率就是第一主成分的方差在全i 1i1pX 1, X 2, ,X p 信息的部方差i中的比值。这个值越大,表明第一主成分综合i1力越强。p前两个主成分的累计贡献率定义为 ( 12 ) /i , 前 k 个主成分的累计贡献i1kp。如果前 k 个主成分的贡献率达到85%,表明取前 k 个主成分率定义为i /ii1i1包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题进行分析和研究。4、主成分分析的计算步骤设 x = ( x 1 , x2 ,

13、 ?, xn) T 为 n 维随机矢量 ,则 PCA 具体计算步骤如下:(1) 将原始观察数据组成样本矩阵 X ,每一列为一个观察样本 x ,每一行代表一维数据。(2) 计算样本的协方差矩阵:(3) 计算协方差矩阵 Cx 的特征值 i 及相应特征向量 ui ,其中 i = 1 ,2 , ?, n。(4) 将特征值按由大到小顺序排列 ,并按照下式计算前 m 个主元的累积贡献率:mn(m)i/ii1i1累积贡献率用于衡量新生成分量对原始数据的信息保存程度即可。(5) 取前 m 个较大特征值对应的特征向量构成变换矩阵,通常要求其大于TT:85%TT= ( u1 , u2 , ?, um)m n(6) 通过 Y= TX计算前m个主成分 ,达到降低维数的目的。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!