PCA降维度实验报告

上传人:m**** 文档编号:192114623 上传时间:2023-03-06 格式:DOCX 页数:10 大小:122.20KB
收藏 版权申诉 举报 下载
PCA降维度实验报告_第1页
第1页 / 共10页
PCA降维度实验报告_第2页
第2页 / 共10页
PCA降维度实验报告_第3页
第3页 / 共10页
资源描述:

《PCA降维度实验报告》由会员分享,可在线阅读,更多相关《PCA降维度实验报告(10页珍藏版)》请在装配图网上搜索。

1、PCA降维题 目(22) PCA成 员2014年6月1日摘要为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特 征,使得原始空间或输入空间的维数可能高达几千维或万维。如果直接在输入空 间上进行分类器训练,就可能带来两个棘手的问题:(1)很多在低维空间具有良 好性能的分类算法在计算上变得不可行;(2)在训练样本容量一定的前提下,特 征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广 能力或泛化能力,呈现所谓的“过学习”或“过训练”的现象。要避免出现“过 学习”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指 数增长,从而造成人们所说的“维数灾难

2、”。这一问题可以通过降维来解决。因 为高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消 除冗余,减少被处理数据的数量,同时还能保持数据的特征完整性,本次实验使 用 26 维度的语音参数 MFCC 验证 PCA 降维算法。关键字:降维、PCA、MFCC1. 算法分析1.1 PCA 简介PCA 的目标是为了发现这种特征之间的线性关系,检测出这些线性关系,并 且去除这线性关系。PCA称为主成分分析或者主元分析。是一种数据分析的降维 方法,一般常用于图像处理,它可以从多元事物中解析出主要影响因素,揭示事 物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。 一类

3、事物的特征会很多,而每个特征也有很高的维数。但有些维数之间有很大的 相似性,相同的维数难以区分特性,所以 PCA 的目标是为了发现这种特性维度 之间的线性关系,检测出这些线性关系,并且去除这线性关系。1.2 PCA 算法设XI、X2-, Xp为原始变量,Fl、F2,Fm为m个主成分因子F a X + a X +. + a X1 11 1 21 2p 1 p其使方差Var(Fl)越大,表示F1包含的信息越多,故称F1为第一主成分。F a X + a X +. + a X1 11 112 21 ppF a X + a X +. + a X2 2112222 p pF a X + a X +. +

4、a Xmm11m 2 2mp p(l) Fi 与 Fj 互不相关, Cov(Fi, Fj) = 0(2) F1是Xl, X2,,Xp的一切线性组合中方差最大的,,即Fm是与F1, F2,Fm-1都不相关的Xl, X2,,XP的所有线性组合中方差最大者。 Fl, F2,,Fm(mWp)为构造的新变量指标,即原变量指标的第一、第二、 第 m 个主成分。1.3 PCA降维步骤(1)计算原变量协方差矩阵、工(s )1 n_ij pxP _i, j = 1,2,ps = y (x - X.)(x - x.)j n 1 ki i j k=1(2)求出工的特征值 及相应的正交化单位特征向量为的前m个较大的特

5、征值12m0,就是前m个主成分对应的方差,对应的单位特征向量 就是原来变量在主成分Fi上的载荷系数(数学上可以证 明),则原变量的第i个主成分Fi为:F = aTXi i i主成分的方差(信息)贡献率用来反映信息量的大小,为:(3)选择主成分最终要选择几个主成分,即F1,F2,Fm中m的确定是通过方差累计贡献区九G (m) = i=1 率G(m)来确定Y九kk=1当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就 是抽取的前m个主成分。2. 实验过程2.1实验环境MATLAB 2014a+windows 8 操作系统MATLAB是一种用于算法开发、数据可视化、数据分析以及数

6、值计算的高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能外, MATLAB还可以用来创建用户界面及与调用其它语言(包括C,C+和FORTRAN) 编写的程序。而2014a是第一个支持中文的MATLAB版本。Windows 8是由微软公司于2012年10月26日正式推出的操作系统。系统 独特的 metro 开始界面和触控式交互系统,旨在让人们的日常电脑操作更加简单 和快捷,为人们提供高效易行的工作环境。其支持来自Intel、AMD的芯片架构, 被应用于个人电脑和平板电脑上。该系统具有更好的续航能力,且启动速度更快、 占用内存更少,并兼容 Windows 7所支持的软件和硬

7、件。2.2 实验步骤1. 打开 MATLAB 2014a,点击_,将MATLAB的工作文件夹定位到mfcc.mat所在目录下,如下图:命令行窗口 *宙込J. C: Users Jackeven De&lctop data当前文件夹窖称bank-data.arff i_jj bank-new.arFf i i mfcc.mat图 2-12. 双击mfcc.mat,将数据加载到工作区。3. 在命令行窗口输入命令: coeff, score, latent, tsquared = pca(mfcc); 并回车, 得到MATLAB自带的pca算法运行后的数据,如下图:工作区命令仙口j| coeffri

8、 latent:二 mfcc二 scorej-| tsquared疽2&x26 double2&)fT double11 1887x26 do.Z1887x26 do.fl 1887x1 dotj load(J mfcc. matJ ) coeffj acorej lai:ent, tsquared = pea1 mfcc.1 ;图 2-24. 在命令行窗口输入命令: rate = cumsum(latent)./sum(latent); 并回车,得到特征值的累计贡献率,如下图:5. 根据贡献率分析,需要保持 95%以上的特征,所以选择前 21 个特征向量。在 命令行窗口输入命令:tranMa

9、trix = coeff(:,l:21);并回车,得到主成分变换矩 阵,则从原来的 26 维空间降到 21 维空间。6. 在命令行窗口输入命令: mfcc_result=bsxfun(minus,mfcc,mean(mfcc,l)*tranMatrix;并回车,得至U降维 结果。选中工作区mfcc_result,点击右键,选择“另存为”保存在mfcc.mat 同一文件夹下,命名为mfcc_result.mat,如下图:工柞区 p 变量-容称1mfc: c_resultcoeff26x26 doublelatent26x1 doublemfccU 1887x26 domfcc_r&sult111

10、88Zx21 do,rate26x1 doublescore17 S8Zx26 do.tra n M26x2 / dcmhietsq u a red1 887x 1 dou.FR 11iaS7x2l double12345159.320524.7182-6.40464.22GQ-0.4877256.694733.89863.0973-3.30954.5375361.525533.2386-4.4212-0.517&6.3767458.065336.96382.4012-0.7021-1.0022551.7526.465-5.5334-3.76720.66676&8.706334.8022-10

11、.3295-123318-0.71417&4.774133.7058-10.1349-1.27352,加鬼C366.733728.1325-9.13471.80646.3870当前文件夹971,87&132,&aa3-8.0790-O.53O11.9211窖称生10&4.703 629.1310-0.8056-3.33S37.7309ujf banlc-data.arff11&6.151818.3875-2.7751-7.&41&2.9612為 banknew.arff H mfcc.matH mfcc_resultmat load (J mfcc. irLat) coeffj score l

12、atent tsquared 二 pca(m.fcc); rale 二 cumsuni (latent ) / sum (latent); tranMatris 二 coeff (: j 1:21); mfcc_result = mfcc*tranMatria: A图 2-43. 实验分析3.1 MATLAB 的 PCA 函数分析coeff, score, latent, tsquared = pca(X) 为 MATLAB 自带的函数,其各个变量代表 的意义如下:X:为要输入的n维原始数据。coeff:是X矩阵所对应的协方差阵V的所有特征向量组成的矩阵,即变换矩 阵或称投影矩阵,每列对应一个

13、特征值的特征向量,列的排列顺序是按特征值 的大小递减排序。score:也就是说原X矩阵在主成分空间的表示。它是对原始数据进行的分析, 进而在新的坐标系下获得的数据,并将这 n 维数据按贡献率由大到小排列。latent:是一维列向量,是X所对应的协方差矩阵的特征值向量,每一个数据 是对应 score 里相应维的贡献率,因为数据有 n 维所以列向量有 n 个数据,由 大到小排列。tsquared:是表示对每个样本点Hotelling的T方统计量。3.2 实验代码行分析coeff, score, latent, tsquared = pca(mfcc):通过 MATLAB 自带的函数,得到 mfcc

14、 数据的 MATLAB pca 函数分析结 果。rate = cumsum(latent)./sum(latent): 计算特征值的累计贡献率,算出降维后的空间所能表示原空间的程度。tranMatrix = coeff(:,1:21): 根据得到的累计贡献率,分析需要保留的维度数,因为只需要能表示原空间 95%以上的特性,就可以保证数据完整性。通过查看 rate 的结果,前 21 个特征 值就可以表示原空间 95%的特性,同时原空间所有的特征向量组成的矩阵为 coeff,所以保留coeff的前21个列向量。mfcc_result=bsxfun(minus,mfcc,mean(mfcc,1)*t

15、ranMatrix: score 为原空间在主成分空间的表示,但是进行了维数据按贡献率,其计算表达式为 score=bsxfun(minus,mfcc,mean(mfcc,l)*coeff。由于 soeff 的特征维度数 也是经过排序的,所以不能直接用原数据 mfcc* tranMatrix 得到降维后的空间, 只 能通过 bsxfun(minus,mfcc,mean(mfcc,l)*tranMatrix 来计算。4. 实验结果实验得到的结果保存在 mfcc_result.mat 文件中,最终降维后的数据有以下变化:1. 结果数据没有打乱样本的排列顺序。2. 结果数据的维度排列顺序进行了改变,

16、按维度对数据的贡献度进行降序排列。3. 结果数据保留了原始数据至少 95%的特性,并且减少了 5 个维度,总体降维 很成功。4. 本次实验采用的 PCA 算法在数据进行降维的同时对数据进行了处理,所以最 终数据与原始数据不能进行直接对比,需要使用本结果数据进行数据识别时, 请参照“ 1.3PCA降维步骤”进行测试数据的处理。以下为结果数据的部分显示截图:4rEsW11nIS141914-1?IS152D212!1込ID-umcidZWgI.CjEdZJW-1J1H如亦网R“2 WK0Md5-IW2孚TM2J-ZC-tU3.-93TBJ-M5Tajwf-ZMIE-AECM3S.3Z4I-DC3B

17、2Egum-Z.I3M-2.14 AM IZZTCH3i.74-O4CM3纸砂 lja272-4J3211JA3157aUUSH4.3Ut或5&旳3L172302?-1J80+7QUS眄a.urib 2&MiJllEfil0J2IU43:.?D55uin肿型S7232-K629I 29&1S0.-425454*52.1420”讯ftSW?込屿笛3.?6Wj砂i3ZCBM-AUDI-3Z2J52iZTIlt-I.7TMatiraiTM32MW*出門CMGMI4DI4I3.2TM19ZMd汕TdD.IIHQ-3J?3dumd.074LCCM-0.27M-dUUJHJHHTj.nD0-J2UB0.E

18、UI-IJDId1.JTU1.*5303?Diawia1.KWJ0-.1W+-aM?i.4mUfllT1JG41CM1Bg昭IJR35-JME-uai-JS.3M3-CL2EC7a-初T初d戲徑riKi-Ji简IT.却.翻lJ34b;2I牡4yj?M7-JjDMT或g-iJwg2拥话5 71 嗣j 沟Id河1J2743.7?17l.WMi0-?G.1CTi叫的酊ftMTO楼期IDME3.72BQdQOT-I.FJ5-0373吒翊19EM2iKa2肌肚Q.132B-ZK2I-I.7ZMDWWiiMK3ii0J&T4-iLaim*-ua?7T毋讹-7Jd&-aETdl-1.37-L3IJJaauE

19、-#.M2-JJH&AUII-DJ7H7.3-CTdOdHDIIZ1J2ZIM皿ED-3J44+4-71丄刚GZ.ZXi.m*-1.?Z-i,&-71帖刖2jM谄2.71-MX1.55a44i&25ZW3M15T.721-i.nzs2M5Tfl迹1 3S5D53S!14ITI叩砲1.DIP-I 1W5l.l?Td-1.HZ9IE1.71M9.I1M2JC9DIPfIS-1.1T73-ix-LuaXIUI-l.-ITM3jff73DCLPUZ0.131771沖ZdHMIT3*1$31N6l.iJ帖血ih2心却E-丄窗A1E4IIaniabaB1JBWJ.7C&S-.-MBS-ijWiZ-3IM2

20、;-ATMSM注弭1.fl1535370.195-1.23*i1.E-154&3177BT3L4diO:也业.-i.MJ-i出观乜awMJTi-3.7WJjHMi心伽讯畑2-ftn&JJO奇、对:j-iflSWidJH?&OBElii5.133ZWWDM17219-JJM8(MHlG3STa3Ba砂i期MTl图 415.结论PCA 的原理就是将原来的样本数据投影到一个新的空间中,相当于在矩阵分 析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标,也可以理 解成把一组坐标转换到另外一组坐标系下,但是在新的坐标系下,表示原来的原 本不需要那么多的变量,只需要原来样本的最大的一个线性无关组

21、的特征值对应 的空间的坐标即可。PCA 还具有以下一些优缺点:1. 优点:它利用降维技术用少数几个综合维度来代替原始特征的多个维度,这些 综合维度集中了原始维度的大部分信息;它通过计算综合主成分函数得 分,对客观现象进行了科学评价,得到维度贡献率的排名,对维度重要 性的估算非常理性化。2. 缺点: 当主成分的因子符合的符号有正负时,综合评价函数意义就不明确,命名 清晰性低,只能涉及一组维度的相关关系,出现两组维度时可以使用典型 相关分析。最后还有一点值得注意的,PCA降维是通过协方差寻找各维度的相关性,考 虑到相关性最小的维度之间联系最少,这些维度相互独立,可以独立的判别原始 数据,所以PCA算法目的就是消除相关性较大的维度,留下相关性小的维度。 由此出发,可以知道PCA算法不是唯一的,根绝选择的协方差矩阵不同,PCA 算法也不一样,获得的转换矩阵肯定也不一样,最后导致的 pca 降维得到的数据 肯定不一致。所以在利用PCA算法进行降维,并用得到的数据进行内容识别时, 一定要保证训练数据和测试数据都进行了同一个PCA算法的处理。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!