机器学习复习重点

上传人:d****1 文档编号:222145012 上传时间:2023-07-08 格式:DOCX 页数:4 大小:36.46KB
收藏 版权申诉 举报 下载
机器学习复习重点_第1页
第1页 / 共4页
机器学习复习重点_第2页
第2页 / 共4页
机器学习复习重点_第3页
第3页 / 共4页
资源描述:

《机器学习复习重点》由会员分享,可在线阅读,更多相关《机器学习复习重点(4页珍藏版)》请在装配图网上搜索。

1、机器学习复习重点判断题(共30分,每题2分,打或x)1、如果问题本身就是非线性问题,使用支持向量机(SVM)是难以取得好的预测效果的。(X)2、只要使用的半监督学习方法合适,利用 100 个标记样本和 1000 个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。(X)3、深度学习中应该尽量避免过拟合。(X)4、在随机森林Bagging过程中,每次选取的特征个数为m, m的值过大会降低树之间的关 联性和单棵树的分类能力。(X)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。(V)6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解

2、。(V)7、在流形学习ISOMAP中,测地距离即是欧氏距离。(X)8、贝叶斯决策实质上是按后验概率进行决策的。(V)9、非参数估计需要较大数量的样本才能取得较好的估计结果。(V)10、不需要显示定义特征是深度学习的优势之一。(V)判断题为反扣分题目;答对得2分,不答得0分,答错得2 分;问答题(共60分)1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。 监督参数估计:样本所属的类别和各类的类条件概率密度函数的形式是已知的,而表征概率密度函数的某些参数是未知的。非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,要求判断出概率 密度函数的某些参数。非参数估计:

3、已知样本所属类别,但未知各类的概率密度函数的形式,要求我们直接推 断概率密度函数本身。2、什么是 k 近邻算法?k近邻算法的基本思想(3分):未知样本x,根据度量公式得到距离x最近的k个样 本。统计这k个样本点中,各个类别的数量。数量最多的样本是什么类别,我们就把这 个数据点定为什么类别。x = w , m = argmax (k ), k是K个样本中第n类的样本个数mn nnm为所求类别。3、决策树的C4.5算法与ID3算法相比主要有哪些方面的改进?1)用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足2)增加了后剪枝操作。3)能够完成对连续属性的离散化处理;4)

4、能够处理属性存在不同损失的情况;5) 能够对不完整数据进行处理。4、就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件 是什么?集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而 获得比单个学习器更好的学习效果的一种机器学习方法。集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过 对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性 能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行 一项决策。必要条件: 被集成的各个基学习器(分类器)性能越高(分类正确率越高)

5、越好。 各个基学习器(分类器)具有互补性,或者说互补性越大越好。5、就您的理解,谈谈什么是半监督学习?请简要介绍Co-training的基本思想半监督学习(Semi-supervised Learning)是模式识别和机器学习领域研究的重点问题, 是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大 量的未标注样本进行训练和分类的问题。常用的半监督学习方法有co-training、self-training、 S3VMS 等。Co-training 的基本思想:在两个分离的视图上,用有标记的样本训练两个不同的分类器, 用这两个分类器分别对无标记的样本进行分类,得到的

6、一定数量的标记样本在后续的训练分 类中为对方所用。Co-training的原则是在不牺牲性能的前提下,尽量多的使用无标记数据, 他的优点是无需人工干涉,自动的从无标记样本中学习到知识。6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。(1) 不同错误的代价或者是后果是不一样的,甚至差别很大。(2) 不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基 本思想。(3) 在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽 量减少犯分类代价大的那类错误。类别不平衡学习:类别不平衡问题是训练样本集其中一类的数量远小于另一类的数量。 在算法和数据

7、方面,有各种解决方案。在数据层面,有各种重新采样的方法,如随机过 采样,随机欠采样等。在算法层面,我们可以调整类别的损失,调整决策的阈值等。7、试简述流型学习方法ISOMAP的基本思想及其优缺点。保持数据点内在几何性质,即保持两点的测地线距离。ISOMAP第一次提到了“测地距离”这一概念,将欧氏距离的概念引入到流形中去,将 原来的普通算法映射到流形中,用“测地距离”来表示在流形中两点间的真实距离。ISOMAP的优点:可以最大限度的保留原始数据的信息。缺点:适用范围有限,流形必 须是内部平坦的;计算每两个点的距离,时间复杂度较大。8、就您的理解,请概述何谓多标记学习。 对具有多个不同概念标记的对

8、象进行有效地建模。学习系统通过对具有一组概念标记(label set)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。形式化地说,多标记学习的任务是从数据集(xl,Yl), (x2,Y2),(xm,Ym)中学得函数f:xf 2y,其中xix为一个示例而Yiy为示例xi所属的一组概念标记。9、就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。 聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇)。K-means 聚类:算法过程:选择K个点作为初始质心Repeat将每个点指派到离它最近的质心,形成K个簇重新计算每个簇的质心Until 簇不再发生变化或者达到最大迭代次数计算题(共10分)x , x 11、有如图所示的神经网络。Squash function为:f (x)=仁,输入样本1 , x P (o I x)12将该人判定为o1(正常人)。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!