机器学习简介

上传人:lis****211 文档编号:176419872 上传时间:2022-12-22 格式:DOCX 页数:2 大小:9.47KB
收藏 版权申诉 举报 下载
机器学习简介_第1页
第1页 / 共2页
机器学习简介_第2页
第2页 / 共2页
资源描述:

《机器学习简介》由会员分享,可在线阅读,更多相关《机器学习简介(2页珍藏版)》请在装配图网上搜索。

1、机器学习简介随着大数据的爆发,以及计算机算力的加强,以机器学习为代表 的人工智能领域逐渐火热起来。机器学习有以下几个构成要素1. 数据,大数据是必备条件,是机器学习的输入信息,基于大数 据,才使得模型的训练效果更好,结果更具有实际意义2. 算法,通过特定算法对数据进行运算,得到一个较优的模型, 根据不同的目标,有回归,分类,聚类等不同类别的算法3. 模型,模型是算法处理得到的结果,比如根据线性回归来得到 一个最终的回归方程,这个方程就是一个具体的模型,可以对新的数 据进行预测从这几个要素之间的关系可以看出,数据是机器学习的输入,算 法是机器学习的工具,模型是机器学习的输出。按照输入数据的特征,

2、 机器学习可以分为两大类,监督学习和非监督学习。所谓监督学习,就是输入数据是带标签的,标签和我们希望求解 的目标是相同的,是事先定义好的类别,这里的类别可以是离散型, 也可以是连续性。最典型的比如垃圾邮件分类,输入数据为事先判断 为垃圾邮件和非垃圾邮件的数据,然后选择适当的分类算法来构建模 型,来区分一封信的邮件是否为垃圾邮件。对于连续性的标签,其实就是回归问题,输入数据包含了自变量 和因变量的值,通过回归算法来求解一个回归方程,然后根据此回归 方程来预测新的数据的因变量值。所谓非监督学习,就是输入数据是无标签的,典型的比如聚类, 输入数据只是样本的各个特征,通过聚类算法将样本分为不同的类别。

3、 这个类别仅仅是模型的输出,在输入数据中是不存在的,这就是数据 无标签的含义。具体地,一个机器学习的完整流程可以分为以下几个步骤1. 收集数据,可以是人工收集整理,也可以是从互联网上爬取2. 数据清洗,清洗的含义是对原始数据进行处理,比如缺失值的处理,输入变量单位的转换,错误数据的纠正等3. 特征工程,对原始的输入变量进行处理,比如对单个变量重新 编码,合并多个变量来构建新变量,或者降维处理等,目的是从众多 的原始输入变量中,筛选与构建出与目标变量密切相关的变量4. 建模,挑选合适的算法对输入数据进行处理,在此过程中,要 不断修改模型的参数,也就是参数调优,得到较好的模型;5. 验证模型,建模

4、得到的模型在训练集上效果较好,为了验证模 型的泛化能力,还需要用验证集来进行验证,常规的做法当时是训练 集和验证集是两个独立的数据集,在数据量较小的情况下也可以采取 交叉验证的方法;6. 模型的部署,最终得到的模型是为了解决特定的业务场景,需 要加模型封装到完整的业务流程中去,构建一个完整的应用程序,比 如自动检测邮件是否为垃圾邮件的小程序从学习的角度来看,我们需要掌握数据清洗,特征工程,算法建 模,参数调优,模型验证等各个环节。为了降低机器学习的使用门槛, 有很多的框架被开发出来供我们使用,以pyth on语言为例,有scikit- learn, tensorflow, pytorch 等。scikit-learn 是其中最受欢迎的机器学习库之一,针对回归,分类, 聚类等不同目标,提供了各种算法,而且配套了数据清洗,模型验证 等一系列功能,通过这个库,可以覆盖了机器学习模型开发的完整生 命周期,是入门机器学习最好的库之一。在后续的章节,会详细介绍 该库的具体用法。end

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!