模式识别基础复习资料

上传人:m**** 文档编号:203398128 上传时间:2023-04-24 格式:DOCX 页数:16 大小:210.69KB
收藏 版权申诉 举报 下载
模式识别基础复习资料_第1页
第1页 / 共16页
模式识别基础复习资料_第2页
第2页 / 共16页
模式识别基础复习资料_第3页
第3页 / 共16页
资源描述:

《模式识别基础复习资料》由会员分享,可在线阅读,更多相关《模式识别基础复习资料(16页珍藏版)》请在装配图网上搜索。

1、Contents卷一、模式识别机经 3卷二、20082009秋模式识别_张学工期末B5卷三、20072008秋模式识别_张学工期末B7卷四、20072008秋模 式识别_张学工期末A10卷五、20062007秋模式识别_张学工期末B11卷六、20052006秋_模式识别_张学工_期末 12卷七、20042005秋_模式识别_张学工_期末 13卷八、20032004秋_模式识别_张学工_期末 14卷九、19992000春_模式识别_张学工_期末14附录、名词以及原理 错误!未定义书签。卷一、模式识别机经1.(16分)正态分布N(0,9)与均匀分布5,10,先验概率1/2 最小错误率分类器,并画图

2、最小错误率分类器缺点答:1 .设计最小错误率分类器:如果P(I x) P(I x)则x为w反之P(I x) P(w I x)x e 11(22 分)8 个样品 w1 3 个.,w2 5 个.1)最近邻分类,画图2)给两个点问怎么分3)最近邻分类器线性分类器? 4)设计二次曲面分之5)压缩近邻法压缩过程及结果6)压缩近邻法分界面并比较1)答:(题目不完整)最近邻法(k=1), k近邻(k个最近的点投票),可以考虑加权 (5分)证明两个样品构成得协方差矩阵一般是奇异的(不可逆的)w , when P(w I x) P(w I x)2122画图如下,红色表示P( I x) (5,10均匀分布的后验概

3、率),蓝色表示P(w2丨x) (N(0,9)的后验概率)(注意图是错的作者)井点圖值(图是错的)3最小错误分类器有许多局限性。其一,其只考虑到错误率的限制,并未考虑到实际情况中 不同错误的代价等等,为了克服这类局限性,学者们在最小错误率之外又设计了最小风险分 类器、限定一类错误率令另一类错误率最小的分类器等;其二,其只能用于监督学习,要求 已知分类情况,并且要满足I.I.D条件即样本与总体分布相符;其三,其要求必须知道先验概 率,许多实际问题的先验概率是难以得到的。X + XX XX X答:设 X , X ,M 二-12,从而 cov(X , X )二(X M)(X M)t 二( )( 2)t

4、1 2 2 1 2 1 2 2 2其第i行j列元素为(x -x )(x -x ) , x 表示第m个样本第n个维度的值。从而这 1,i2,i 1, j2, jm ,n是一个行列式为零的矩阵(第一行除以(x -x ),第二行除以(x -x )之后想减得零,故 1,1 2,1 1,2 2,2该协方差阵是奇异的。4. (26分)距离不同会有不同结果1)给出两种你认为重要的距离,如何定义及物理意义2)贝叶斯分类器,近邻法,fisher投影法,c均值法是否受距离度量影响,不受则说明理由,答:距离可以是任意一种范数,设对点X ,X12欧几里得距离(2 范数):| X X II 二(X X )t(X X )

5、1/21 2 2 1 2 1 2每个坐标的绝对值差之和(1范数):II X X II = I(x x )11 2 1(1) i(2) ii =1贝叶斯分类器不受、fisher投影法不受:都属于判别函数与距离度量无关的,故不受影响,近 邻法,c均值法与受到距离度量的5. (15分)AB玩游戏,A问是非问题,B回答是或非.问1)游戏与模式识别什么内容有关系?用模式识别语言描述2)B应如何调整问题3)如果做成计算机游戏,写出设计思路,方法,难点,解决方案游戏受欢迎吗?为什么?答: 这是一类决策树问题。可以将每一个是非问题看做一个决策树节点,是非答案决定了 分支的方向(左或右)。调整问题应该使得在有效

6、分类的情况下树深度最浅,就能在单次游 戏最坏情况下最快猜出。 (我觉得挺2的,应该不会受欢迎。 。不过可以用作公安局犯罪嫌 疑人指认的软件)6. (6分)自己设计模糊数学用于模式识别的其他理论方法(除去聚类)写出思路必要细节 分析可能结果.答:例如k-近邻法的模糊性质。定义隶属函数卩(x)表示x属于类的程度,值域上界为1, 马1表示完全属于,下界为0,表示完全不属于,将对任意一个待判定的样本,选取某个距 ii离度量(如欧几里得距离)最近的k个已知类别的训练样本x ,i = 1,2,., k,从而令i卩(x) = i sig(x go )/k得到x对于类的隶属函数。乌j iij=17. (10分

7、)专家经常根据特殊笔迹或特殊长相分类问如何在一个人脸自动识别系统或笔迹 自动识别系统中实现人的这一经验从数据预处理,特征提恥选择分类器设计等角度描述 实现这一经验的方法与可能性优点?缺点?答:这是一类特殊的图像识别问题,可以采用K-L分类卷二、20082009秋模式识别_张学工期末B1. (30)简要介绍下列概念ROC曲线、交叉验证、似然函数、特征选择与提取、推广能力、随机森林 答:1. ROC 曲线(Receiver Operational Characteristic Curve)是以 False Positive Rate 为横坐标, True Positive Rate为纵坐标的绘制的

8、曲线,通过改变分点给出对应的FP和TP绘成。 曲线的点表示了在敏感度和特殊性之间的平衡,例如越往左,也就是假阳性越小,则 真阳性也越小。曲线下方的面积越大,则表示该方法越有利于区分两种类别。2. 交叉验证是指交叉验证(Cross-validation)主要用于建模应用中,在给定的建模样本中,拿出大 部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差, 记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。 把每个样本的预报误差平方加和,这个数越小,表示该方法越好3. 特征选择与提取:特征是指对事物的观测或者某种运算,用于分类。特征提

9、取是指直接观测到或者经过初步运算的特征原始特征。特征选择是指从 m个特征中选择ml个,m1m。特征提取(特征压缩、变换)将 m 个特征变为 m2 个新特征。4. 推广能力:在有限的样本上建立的学习机器对未来样本的表现。5. 随机森林是指通过 bootstrapping 样本来生成许多决策树,对于决策树上的每一个节点,选择 m 个变量来进行决策。计算训练集基于这 m个变量的最佳分划。(Wiki:在机器学习中,随机森林 是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而Random Fores

10、ts是他们的商标。这个 术语是1995年由贝尔实验室的Tin IKam Ho所提出的随机决策森林(random decision forests)而来 的。这个方法则是结合 Breimans 的Bootstrap aggregating想法和 Ho 的random subspace method 以建造决策树的集合。)2. (30)简述Fisher线性判别方法的基本原理并讨论如何在Fisher线性判别中实现最小风 险的分类决策。答:1. Fisher 线性判别法是指:将多维判别决策问题通过线性组合降低为1 维的时候,选择 一个最优的一维线性判别函数的方法。该方法考虑了不同类别样本的协方差和均值

11、之 差。决策面法向量为w* = S i(m - m )。w 122. 考虑最小风险分类决策的时候,需要甄选分界阈值点。从而可以根据贝叶斯决策规获 得一种一维内的最小风险分类器。例如,经过投影后的,分别服从12p(x I),p(xI)的分布规律P14页下方1 23. (20)简述C-均值方法的基本原理,并讨论在什么情况下此方法比较适用。答:C 均值法是一种动态聚类法,通过多次迭代,逐步调整类别划分,最终使某准则达到 最优。C均值法的目标是最小化J 最小方差划分。用另一个角度来看,就是用C个码本 e来代表整个样本集,使这种表示带来的总体误差最小向量量化。误差平方和聚类准则:见课件9.3(p14)适

12、用条件:课件9.3 (p22)4. (20)SVM与多层感知器都可以实现非线性分类,试讨论它们在原理上的联系与区别。 答:1. 支持向量机(SVM: Sup porting Vector Mechine)原理:课件 5.5 P6 (特点是:P13), 课本 P301。支持向量机的基本思想可以概括为:首先通过非线性变化将输入空间变换到一个高维 空间,然后在这个新空间中求取最优先行分类面,而这种非线性变换是通过定义适当 的内积函数K(X,Y)实现的。2. 多层感知器(MLP:Multi-Layer Perception)原理:课件 5.4 P10。 是一种前馈人工神经网络。它利用三层或者三层以上多

13、个感知器来讲输入数据映射为 复杂输出数据,使得分类器可以产生非线性的或者超平面的决策面,从而成为分线性 分类器。(Wiki:A multi layer percep troia feedforward artificial neural network model that maps sets of input data onto a set of appropriate output. It is a modification of the standard linear perceptron in that it uses three or more layers of neurons (

14、nodes) with nonlinear activation functions, and is more powerful than the perceptron in that it can distinguish data that is not linearly separable, or separable by a hyperplane.1)3. 联系与差异:都属于非线性分类器,但是其中一种是通过特征空间的非线性变换来实 现最优决策面的,而多层感知器则是通过多层感知器(逻辑单元)的逻辑组合(输入 -中间-输出)以及每层之间各数据的线性组合来实现非线性决策面的5. (没有分)给课

15、程提建设性建议。1. 通过模式识别基础课程的学习。卷三、20072008秋模式识别_张学工期末B1 写出英文全称,中文,100字简述5*6=30a) Hierachical Clustering; b)MLP; c)Nonparametric Estimation; d)SVMe)Fishers Linear Discriminant Analysis; f)PCA; Random Forest1. Hierachical Clustering,分级聚类(课件9.4P45):从各类只有一个样本点开始,逐级 合并,每级只合并两类,直到最后所有样本都归到一类。聚类过程中考察类间相似度 依次决定类别

16、数。2. MLP, Multi-Layer Perception,多层感知器原理:课件 5.4 P10。 是一种前馈人工神经网络。它利用三层或者三层以上多个感知器来讲输入数据映射为 复杂输出数据,使得分类器可以产生非线性的或者超平面的决策面,从而成为分线性 分类器。(Wiki:A multilayer perceptrioia feedforward artificial neural network model that maps sets of input data onto a set of appropriate output. It is a modification of the

17、standard linear perceptron in that it uses three or more layers of neurons (nodes) with nonlinear activation functions, and is more powerful than the perceptron in that it can distinguish data that is not linearly separable, or separable by a hyperplane.i)3. Nonparametric Estimation:非参数估计(课件 3.5.1,

18、P36) 不假设概率模型,通过样本落在区域的概率来估计出一个概率密度函数。常用的有窗 函数法(如近邻估计、Parzen窗估计)。4. SVM, Supporting Vector Mechine,支持向量机:课件 5.5 P6 (特点是:P13),课本 P301。支持向量机的基本思想可以概括为:首先通过非线性变化将输入空间变换到一个高维 空间,然后在这个新空间中求取最优先行分类面,而这种非线性变换是通过定义适当 的内积函数K(X,Y)实现的。5. Fishers Linear Discriminant Analysis, Fisher 线性判别分析:Fisher线性判别法是指:将多维判别决策问

19、题通过线性组合降低为1维的时候,选择 一个最优的一维线性判别函数的方法。该方法考虑了不同类别样本的协方差和均值之 差。决策面法向量为w* = S T(m - m )。w 126. PCA, Principal Component Analysis,主成分分析:课件 8.2P21,目的:在统计学中, 主成分分析(principal components analysis (PCA)是一种简化数据集的技术。它是一- 个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少

20、数据集的维数,同时保持数据集的对方差 贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成 分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。6. Random Forest,随机森林:随机森林是指通过bootstrapping样本来生成许多决策树,对于 决策树上的每一个节点,选择 m 个变量来进行决策。计算训练集基于这 m 个变量的最佳分划。(Wiki:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树 输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而Random Fo

21、rests是他们的商标。这个术语是1995年由贝尔实验室的Tin IKam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的Bootstrap aggregating想法和 Ho 的random subspace method以建造决策树的集合。)2. 200 字简述 4*5=20a)最小距离分类器何时是最优分类器?b)写出最小距离分类器,分段线性判别,最近邻法的关系c)写出决策树和随机森林的关系,以及为什么要有随机森林记不太清了,貌似有个SVM的原理?d)写出K-L变换和PCA的关系写出特征提取和fisher线性判别的关

22、系答:1. 最小距离分类器:(课本P120页)最小距离分类器是指在贝叶斯决策规则当类条件概率密度为正态分布且各特征统计独立同方差时,利用贝叶斯决策规则在可以得到线性距离 判别函数,特别是当P()二P()时,决策规则式可以写成12( 0, T XII x 卩 II2 II X 卩 II2 0, T X2这时的最小距离分类器是满足贝叶斯决策规则的最优分类器。2. 最小距离分类器是一种分段线性的判别方法。每个样本点的类别由最近的代表点的类别 决定。最近邻法是这种分类器的一种应用,特殊之处在于(课本P120页)最近邻法是将 每一个样本都当做类别的代表点3. 随机森林由多个决策树组成。随机森林的优缺点:

23、Wiki:The advantages of random forest are: For many data sets, it produces a highly accurate classifier It handles a very large number of input variables It estimates the importance of variables in determining classificationIt generates an internal unbiased estimate of the generalization error as the

24、 forest building progressesIt includes a good method for estimating missing data and maintains accuracy when a large proportion of the data are missingIt provides an experimental way to detect variable interactionsIt can balance error in class population unbalanced data setsIt computes proximities b

25、etween cases, useful for clustering, detecting outliers, and (by scaling) visualizing the dataUsing the above, it can be extended to unlabeled data, leading to unsupervised clustering, outlier detection and data views Learning is fastThe disadvantages of random forest are: Random forest are prone to

26、 overfitting for some datasets. This is even more pronounced in noisy classification/regression tasks.f Random Forest does not handle large numbers of irrelevant features as well as ensembles of entropy-reducing decision trees.pj It is more efficient to select a random decision boundary than an entr

27、opy-reducing decision boundary, thus making larger ensembles more feasible. Although this may seem to be an advantage at first, it has the effect of shifting the computation from training time to evaluation time, which is actually a disadvantage for most applications.3写出K-L变换和PCA的关系:PCA和K-L变换目的都是从高维

28、的原始数据中提取低维度相关性低的特征数据。(白云飞:PCA针对样本协方差矩阵,找出特征值较大的,K-L变换针 对产生矩阵,可以根据不同准则挑选特征值和特征向量,二者本质相同)3构造两类分类器,100个训练数据,使用K近邻法,如何选择K,给出一个合适的K,说 明理由(1*5=5)答:K 值不宜太大,太大则太多干扰样本点被纳入,太小则无法适应小规模错误情况,对 于100个训练数据,一般来说选择5、7、9比较合适。去奇数是为了避免出现两种类别数相 同无法判决的情况。4. SOM若没有邻域作用,则变成什么算法?写出该算法的目标函数,算法基本步骤 (1*15=15)答:SOM思路类似先作向量量化(聚类)

29、,用较少的点(子类)代表原样本空间,把这些代表点 进行分类。(Wiki: A self-organizing map (SOM) or self-organizing feature map (SOFM) is a type of artificial neural network that is trained using unsupervised learning to produce a low-dimensional (typically two-dimensional), discretized representation of the input space of the tra

30、ining samples, called amap. Self-organizing maps are different from other artificial neural networks in the sense that they use aneighborhood function to preserve the topological properties of the input space.)如果没有邻域作用,就退化一个典型的C均值法。该算法计算步骤(课件9.3, P17)5. 综合题。文本自动分类的原理性设计,按內容分类为军事,体育,娱乐等。例举本科所 学內容和概念能

31、在这个设计上怎么体现。1* 30=30答:因为是按已知內容分类,是一个监督学习的模式识别问题。考虑如下监督学习模式1. 随机获取已经定义好类别的样本1. 特征提取:每个样本进行词频统计,词汇来自辞海。假设辞海有80000个词,则对每 一个样本,得到一个80000维的特征数据。显然,这是一个高维数据。2. 特征处理:(1)首先去所有样本出现频度都小于一定阈值的词汇,比方说出现5次。剩下1 0000维。( 2 )对这1 0000维进行主成分分析,得到一个低维度的特征数据,比如4维。 ( 3对于这三维,可以进行一下分类:k近邻法、支撑向量机法(广义支撑向量机)、Fisher判别 法等。其中Fishe

32、r判别再次降维后还可以运用基于最小错误率的贝叶斯决策3. 对于以上监督学习模式的样本可以进行同一个方法的交叉验证,去除一定的干扰。附加题.说明两类错误率。在SVM线性不可分的情况下,如何把最小风险的概念引入SVM,对目标函数应该怎样修正。(最多10分,全卷不会超过100分)答:(1)两类错误率为“拒真纳伪”。(2)(课本P298)如果线性不可分,就是某些样本不能满足条件时y (wx ) + b -1 0,引ii入松弛因子0,使得条件变成y (wx) + b-1+E 0,对于足够小的,只要使iiiiF =E最小就能使错分样本数最小。对应线性可分情况下的使分类间隔最大,在线性不Qii =1c可分的时候引入约束II w 1|2 =c,请证明使得J最小的划分中没有空子集

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!